日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

robots.txt文件里面怎样屏蔽蜘蛛

發布時間:2024/4/17 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 robots.txt文件里面怎样屏蔽蜘蛛 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

robots.txt文件,是每個網站都可以用來跟,遵循robots協議的搜索引擎蜘蛛,進行對話的一段代碼。

我們先來看一個列子,讓搜索引擎抓取所有的內容,代碼如下:

User-agent: *
Allow: /
其中User-agent后面跟的是蜘蛛的名字,如果是所有的蜘蛛都遵守的話,那么就可以用*來代替所有的蜘蛛,如果只是針對某一蜘蛛的話,
那么只需要列出來這個蜘蛛的名字即可。如果不想讓蜘蛛來爬取,那么只需要將Allow修改為Disallow,禁止爬取即可,/后面跟的內容就是
禁止或允許爬取的內容。

而有時候蜘蛛爬取過于頻繁,那么我們需要添加Crawl-delay這個代碼,他的意思是告訴蜘蛛延時多少秒以后再來爬取,我們可以看下實例:

User-agent: *
Crawl-delay: 500

?

前面的內容都一樣,不同的是Crawl-delay后面只能跟數字,而且只能是正整數。

我們常用的代碼還包括:User-agent、Disallow、Allow以及Crawl-delay等。

?

其實最好的辦法你還是嘗試下robots.txt文件的設置,在網站的robots.txt文件中加上如下內容:
以百度蜘蛛為例

User-agent: Baiduspider
Disallow: /

  這種方法如果不能完全屏蔽百度的爬蟲,也就是蜘蛛要是不遵守robots協議,我們才要想完全屏蔽百度的爬蟲,需要在.htaccess中加入一些語句才可以,下面介紹兩種方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot


Order Allow,Deny
Allow from all?


安徽育兒網 http://www.ahyuer.com

轉載于:https://www.cnblogs.com/jincon/archive/2011/01/22/1941982.html

總結

以上是生活随笔為你收集整理的robots.txt文件里面怎样屏蔽蜘蛛的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。