如何检测爬虫 IP
這篇文章我們將詳細(xì)介紹如何識(shí)別爬蟲 ip。
我們?cè)诰W(wǎng)站運(yùn)營(yíng)的時(shí)候,經(jīng)常有各種各樣的爬蟲來(lái)光顧,有好的爬蟲,例如:搜索引擎爬蟲、營(yíng)銷類的爬蟲、屏幕快照類爬蟲、監(jiān)控類爬蟲、信息流類爬蟲、鏈接檢查類爬蟲、工具類爬蟲、速度測(cè)試類爬蟲、漏洞類爬蟲。惡意的爬蟲,例如:抓取類爬蟲、偽造爬蟲等。
我們將爬蟲分為兩類,但也不是絕對(duì)的,有一些搜索引擎爬蟲在國(guó)內(nèi)沒(méi)什么問(wèn)題,但是在國(guó)外由于過(guò)度抓取,而被列入黑名單。而被站長(zhǎng)加入黑名單,所以最終還是要根據(jù)自己的實(shí)際情況。
如何識(shí)別爬蟲ip
我們經(jīng)常在檢查日志的時(shí)候,看到 User-agent 是爬蟲的,但是 IP 不確定是不是這個(gè)爬蟲的 IP,這個(gè)時(shí)候,我們需要查詢爬蟲的IP地址,我們可以直接到爬蟲識(shí)別這個(gè)網(wǎng)站上查詢。
首先我們點(diǎn)擊首頁(yè)上的爬蟲查詢,之后輸入ip地址,就可以看到是不是真實(shí)的爬蟲,下面是示例:
例如,我們輸入:116.179.32.100就是百度蜘蛛的 IP 地址,截圖如下:
同時(shí)還可以通過(guò)查詢的結(jié)果始于什么類別,是否遵守 robots.txt 協(xié)議等,有了這樣一個(gè)工具,偽造爬蟲也逃不過(guò)你的火眼金睛。
例如:下面是一個(gè)偽造百度蜘蛛的 IP 地址,通過(guò)查詢結(jié)果如下:
通過(guò)上圖可以看出不僅查詢出了偽造百度蜘蛛,還可以看到最近活躍時(shí)間,可以為站長(zhǎng)提供很好的參考作用。
通過(guò)上面的方法查詢之后,基本就可以檢查出來(lái)爬蟲的IP是否正確,即使偽造的爬蟲IP也可以被我們精準(zhǔn)識(shí)別出來(lái)。
搜索引擎爬蟲類目下面也整理出了各種各樣爬蟲的 User-agent,這樣站長(zhǎng)通過(guò) User-agent + 爬蟲 IP 識(shí)別的方式,就可以檢測(cè)爬蟲。
總結(jié)
這篇文章主要介紹了如何通過(guò)爬蟲識(shí)別這個(gè)工具精準(zhǔn)識(shí)別爬蟲,同時(shí)也介紹了如何查找各類爬蟲的 UA(User-agent),為我們的網(wǎng)站運(yùn)營(yíng)如虎添翼。
總結(jié)
- 上一篇: SP和Fuction的关系
- 下一篇: java集合数组,数组小到大排序,数组大