如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间
如何控制Yahoo! Slurp蜘蛛的抓取頻度_國外博客資源站_百度空間
如何控制Yahoo! Slurp蜘蛛的抓取頻度2009年08月13日 星期四 5:56上周末豆瓣的阿北給我電話:最近你們雅虎的蜘蛛(Yahoo! Slurp)對豆瓣網的抓取頻度非常高,導致服務器的速度有些慢,如何才能讓Slurp降低抓取頻度呢? 我首先想到的建議是在網站的robots.txt中增加Crawl-delay: 設置,這個設置是目前Slurp獨有的,用來告訴Slurp蜘蛛2次訪問之間的間隔,單位是秒。 剩下的問題就是Crawl-delay的值該設置多大,這個要看網站自身可以承受的負載,假設你希望Slurp每10秒來訪問一次,這個設置就是: User-agent: * 我推薦使用 User-agent: * 萬一有其他引擎逐步也支持這個配置呢,而不支持這個配置的引擎也會跳過這句。 可實際上我從自己網站的日志中看到:Slurp的壓力卻不止10秒一次,原因是這樣:雅虎美國和雅虎中國有2套蜘蛛在運行,因此實際的訪問可能是這樣: 1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China 每個蜘蛛都是遵循Crawl-delay間隔的,因此為了進一步降低Slurp壓力,希望達到10秒一次請求的頻道 實際的Crawl-delay配置就要*2。 但是實際上我看到的雅虎的蜘蛛是分布在很多臺服務器上的:而多個服務器集群之間也是不相互協調同一網站的抓取頻度的 1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China 我統計了一下:Slurp來源于40多個IP網段,同網段內的蜘蛛協調抓取頻度。因此:實際的Slurp設置,需要設置為10*40 = 400秒,才能達到期望的Slurp每10秒訪問一次頻度。 給豆瓣推薦的Crawl-delay: 100 平均2.5秒訪問一次,應該沒有問題了。 注:我查了一下Slurp的意思,就是咂吧嘴的聲音,發音聽著很像在吃面條吧? |
總結
以上是生活随笔為你收集整理的如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开放平台_XAuth
- 下一篇: 软区域