日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网络爬虫基本原理(一)

發布時間:2025/5/22 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 网络爬虫基本原理(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載至 http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html?

? ? 網絡爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將互聯網上的網頁下載到本地形成一個或聯網內容的鏡像備份。這篇博客主要對爬蟲以及抓取系統進行一個簡單的概述。

一、網絡爬蟲的基本結構及工作流程

??? 一個通用的網絡爬蟲的框架如圖所示:

??? 網絡爬蟲的基本工作流程如下:

??? 1.首先選取一部分精心挑選的種子URL;

??? 2.將這些URL放入待抓取URL隊列;

??? 3.從待抓取URL隊列中取出待抓取在URL,解析DNS,并且得到主機的ip,并將URL對應的網頁下載下來,存儲進已下載網頁庫中。此外,將這些URL放進已抓取URL隊列。

??? 4.分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環。

二、從爬蟲的角度對互聯網進行劃分

??? 對應的,可以將互聯網的所有頁面分為五個部分:

??? 1.已下載未過期網頁

??? 2.已下載已過期網頁:抓取到的網頁實際上是互聯網內容的一個鏡像與備份,互聯網是動態變化的,一部分互聯網上的內容已經發生了變化,這時,這部分抓取到的網頁就已經過期了。

??? 3.待下載網頁:也就是待抓取URL隊列中的那些頁面

??? 4.可知網頁:還沒有抓取下來,也沒有在待抓取URL隊列中,但是可以通過對已抓取頁面或者待抓取URL對應頁面進行分析獲取到的URL,認為是可知網頁。

??? 5.還有一部分網頁,爬蟲是無法直接抓取下載的。稱為不可知網頁。

三、抓取策略

??? 在爬蟲系統中,待抓取URL隊列是很重要的一部分。待抓取URL隊列中的URL以什么樣的順序排列也是一個很重要的問題,因為這涉及到先抓取那個頁面,后抓取哪個頁面。而決定這些URL排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略:

??? 1.深度優先遍歷策略

深度優先遍歷策略是指網絡爬蟲會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。我們以下面的圖為例:

??? 遍歷的路徑:A-F-G? E-H-I B C D

??? 2.寬度優先遍歷策略

??? 寬度優先遍歷策略的基本思路是,將新下載網頁中發現的鏈接直接插入待抓取URL隊列的末尾。也就是指網絡爬蟲會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。還是以上面的圖為例:

??? 遍歷路徑:A-B-C-D-E-F G H I

??? 3.反向鏈接數策略

??? 反向鏈接數是指一個網頁被其他網頁鏈接指向的數量。反向鏈接數表示的是一個網頁的內容受到其他人的推薦的程度。因此,很多時候搜索引擎的抓取系統會使用這個指標來評價網頁的重要程度,從而決定不同網頁的抓取先后順序。

??? 在真實的網絡環境中,由于廣告鏈接、作弊鏈接的存在,反向鏈接數不能完全等他我那個也的重要程度。因此,搜索引擎往往考慮一些可靠的反向鏈接數。

??? 4.Partial PageRank策略

??? Partial PageRank算法借鑒了PageRank算法的思想:對于已經下載的網頁,連同待抓取URL隊列中的URL,形成網頁集合,計算每個頁面的PageRank值,計算完之后,將待抓取URL隊列中的URL按照PageRank值的大小排列,并按照該順序抓取頁面。

??? 如果每次抓取一個頁面,就重新計算PageRank值,一種折中方案是:每抓取K個頁面后,重新計算一次PageRank值。但是這種情況還會有一個問題:對于已經下載下來的頁面中分析出的鏈接,也就是我們之前提到的未知網頁那一部分,暫時是沒有PageRank值的。為了解決這個問題,會給這些頁面一個臨時的PageRank值:將這個網頁所有入鏈傳遞進來的PageRank值進行匯總,這樣就形成了該未知頁面的PageRank值,從而參與排序。下面舉例說明:

??? 5.OPIC策略策略

??? 該算法實際上也是對頁面進行一個重要性打分。在算法開始前,給所有頁面一個相同的初始現金(cash)。當下載了某個頁面P之后,將P的現金分攤給所有從P中分析出的鏈接,并且將P的現金清空。對于待抓取URL隊列中的所有頁面按照現金數進行排序。

??? 6.大站優先策略

??? 對于待抓取URL隊列中的所有網頁,根據所屬的網站進行分類。對于待下載頁面數多的網站,優先下載。這個策略也因此叫做大站優先策略。?

?

參考書目:

1.《這就是搜索引擎——核心技術詳解》  張俊林  電子工業出版社

2.《搜索引擎技術基礎》         劉奕群等 清華大學出版社

author:wawlian
save me from myself

轉載于:https://www.cnblogs.com/Camier-myNiuer/p/4279523.html

總結

以上是生活随笔為你收集整理的网络爬虫基本原理(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产三级大片 | 久草婷婷 | 3d动漫精品啪啪一区二区下载 | 国产精品有限公司 | 日本女优黄色 | 自拍偷拍色综合 | 97超碰伊人 | 国产网站免费观看 | 18禁裸乳无遮挡啪啪无码免费 | 色哟哟无码精品一区二区三区 | 亚洲视频中文字幕在线观看 | 精品无码国产一区二区三区51安 | 国产av人人夜夜澡人人爽 | 黄色网战入口 | 免费人成视频在线 | 成人精品视频在线观看 | 我想看毛片| 免费小视频在线观看 | 69av国产 | 91色啪| 97麻豆视频 | 中国免费一级片 | 亚洲痴女 | 欧美一级啪啪 | 神马午夜我不卡 | 玩弄丰满少妇xxxxx性多毛 | 久久aⅴ乱码一区二区三区 亚洲成人18 | 少妇搡bbbb搡bbbb | 手机在线一区二区三区 | 亚洲av无码一区二区三区网站 | 欧美激情一区二区在线 | 嫩草视频在线 | 日本黄色视屏 | 大陆熟妇丰满多毛xxxⅹ | 久久精品国内 | av在线综合网 | 高潮疯狂过瘾粗话对白 | 国产精品久久久999 www日本高清视频 | 夜夜操天天 | √天堂资源地址在线官网 | 青青草社区视频 | 波多野结衣在线一区二区 | 国产精品传媒麻豆hd | 亚洲欧美日韩系列 | 五月激情天 | 9l视频自拍九色9l视频 | 国产又粗又大又长 | 影音先锋丝袜美腿 | 欧美激情影音先锋 | 久久精品成人 | 国产人成视频在线观看 | 国产黄a| 欧美性大战久久久久久久蜜桃 | 久久99久久99精品免观看软件 | 国产成人在线观看免费 | 亚洲熟悉妇女xxx妇女av | 成人在线免费小视频 | 日本一区二区免费电影 | 欧美亚洲精品天堂 | 色妞色| 日日碰狠狠添天天爽无码 | 日韩福利在线观看 | www.av网址 | 男女啪啪国产 | 日本wwww视频| 超碰成人97 | 欧美日韩a级片 | 窝窝午夜理论片影院 | 欧美日韩国产伦理 | 亚洲乱码国产乱码精品天美传媒 | 久久水蜜桃 | 九九综合九九 | 久久四色| 国产精品一级视频 | 色屁屁一区二区 | 一区二区免费av | 色婷婷久久久亚洲一区二区三区 | 亚洲综合热 | 日本乱码一区二区 | 国产精品国产一区二区三区四区 | 午夜精品成人毛片非洲 | 一本大道av | jlzzjlzz亚洲女人 | www.久久综合 | 一区二区三区美女 | av一起看香蕉 | 在线看b| 久久精品视频在线观看 | 国产成人精品免费看视频 | 乳色吐息在线看 | 精品久久久久久久久久久久久久久久久久 | 免费a v视频 | 成人国产三级 | 亚洲欧美激情在线观看 | 精品无码av在线 | 国产情侣自拍一区 | 国产三区在线播放 | 欧美激情在线观看一区 | 久操亚洲 |