日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间

發布時間:2025/3/15 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

如何控制Yahoo! Slurp蜘蛛的抓取頻度_國外博客資源站_百度空間

如何控制Yahoo! Slurp蜘蛛的抓取頻度2009年08月13日 星期四 5:56

上周末豆瓣的阿北給我電話:最近你們雅虎的蜘蛛(Yahoo! Slurp)對豆瓣網的抓取頻度非常高,導致服務器的速度有些慢,如何才能讓Slurp降低抓取頻度呢?

我首先想到的建議是在網站的robots.txt中增加Crawl-delay: 設置,這個設置是目前Slurp獨有的,用來告訴Slurp蜘蛛2次訪問之間的間隔,單位是秒。

剩下的問題就是Crawl-delay的值該設置多大,這個要看網站自身可以承受的負載,假設你希望Slurp每10秒來訪問一次,這個設置就是:

User-agent: *

Crawl-delay: 10

我推薦使用 User-agent: * 萬一有其他引擎逐步也支持這個配置呢,而不支持這個配置的引擎也會跳過這句。

可實際上我從自己網站的日志中看到:Slurp的壓力卻不止10秒一次,原因是這樣:雅虎美國和雅虎中國有2套蜘蛛在運行,因此實際的訪問可能是這樣:

1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China

2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp

1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China

每個蜘蛛都是遵循Crawl-delay間隔的,因此為了進一步降低Slurp壓力,希望達到10秒一次請求的頻道 實際的Crawl-delay配置就要*2。

但是實際上我看到的雅虎的蜘蛛是分布在很多臺服務器上的:而多個服務器集群之間也是不相互協調同一網站的抓取頻度的

1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China

2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp

1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China

1.1.1.2 30/Jun/2006:00:00:13 Yahoo! Slurp China

1.1.1.1 30/Jun/2006:00:00:23 Yahoo! Slurp China

1.1.1.2 30/Jun/2006:00:00:27 Yahoo! Slurp China

我統計了一下:Slurp來源于40多個IP網段,同網段內的蜘蛛協調抓取頻度。因此:實際的Slurp設置,需要設置為10*40 = 400秒,才能達到期望的Slurp每10秒訪問一次頻度。

給豆瓣推薦的Crawl-delay: 100 平均2.5秒訪問一次,應該沒有問題了。

注:我查了一下Slurp的意思,就是咂吧嘴的聲音,發音聽著很像在吃面條吧?

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。