當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy 伪装代理和 fake_userAgent 的使用

發布時間：2024/7/23 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 scrapy 伪装代理和 fake_userAgent 的使用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

From：https://www.cnblogs.com/hellangels333/p/8918938.html

fake-useragent 下載和使用方法：https://pypi.org/project/fake-useragent

偽裝瀏覽器代理在爬取網頁是有些服務器對請求過濾的不是很高可以不用ip來偽裝請求直接將自己的瀏覽器信息給偽裝也是可以的。

第一種方法：

1.在setting.py文件中加入以下內容，這是一些瀏覽器的頭信息

USER_AGENT_LIST = ['zspider/0.9-dev http://feedback.redkolibri.com/','Xaldon_WebSpider/2.0.b1','Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)','Mozilla/5.0 (compatible; Speedy Spider; http://www.entireweb.com/about/search_tech/speedy_spider/)','Speedy Spider (Entireweb; Beta/1.3; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.2; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.1; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.0; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Beta/1.0; www.entireweb.com)','Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)','Speedy Spider (http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (http://www.entireweb.com)','Sosospider+(+http://help.soso.com/webspider.htm)','sogou spider','Nusearch Spider (www.nusearch.com)','nuSearch Spider (compatible; MSIE 4.01; Windows NT)','lmspider (lmspider@scansoft.com)','lmspider lmspider@scansoft.com','ldspider (http://code.google.com/p/ldspider/wiki/Robots)','iaskspider/2.0(+http://iask.com/help/help_index.html)','iaskspider','hl_ftien_spider_v1.1','hl_ftien_spider','FyberSpider (+http://www.fybersearch.com/fyberspider.php)','FyberSpider','everyfeed-spider/2.0 (http://www.everyfeed.com)','envolk[ITS]spider/1.6 (+http://www.envolk.com/envolkspider.html)','envolk[ITS]spider/1.6 ( http://www.envolk.com/envolkspider.html)','Baiduspider+(+http://www.baidu.com/search/spider_jp.html)','Baiduspider+(+http://www.baidu.com/search/spider.htm)','BaiDuSpider','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) AddSugarSpiderBot www.idealobserver.com',]

2.在spider同級目錄下建立一個MidWare文件價里面寫一個HeaderMidWare.py文件內容為

# encoding: utf-8 from scrapy.utils.project import get_project_settings import randomsettings = get_project_settings()class ProcessHeaderMidware():"""process request add request info"""def process_request(self, request, spider):"""隨機從列表中獲得header，并傳給user_agent進行使用"""ua = random.choice(settings.get('USER_AGENT_LIST')) spider.logger.info(msg='now entring download midware')if ua:request.headers['User-Agent'] = ua# Add desired logging message here.spider.logger.info(u'User-Agent is : {} {}'.format(request.headers.get('User-Agent'), request))pass

3.在setting.py文件中添加

DOWNLOADER_MIDDLEWARES = {
'projectName.MidWare.HeaderMidWare.ProcessHeaderMidware': 543,
}

第二種方法：fake_userAgent的使用

fake_userAgent是github上的開源項目
1.安裝 fake_userAgent
? ? pip install fake-useragent

fake_userAgent 使用方法

from fake_useragent import UserAgent import requestsua = UserAgent() print(ua.ie) #ie瀏覽器的user agent print(ua.opera) #opera瀏覽器 print(ua.chrome) #chrome瀏覽器 print(ua.firefox) #firefox瀏覽器 print(ua.safari) #safri瀏覽器#最常用的方式 #寫爬蟲最實用的是可以隨意變換headers，一定要有隨機性。支持隨機生成請求頭 print(ua.random) print(ua.random) print(ua.random)######################################################請求的網址 url="http://www.baidu.com"#請求頭 headers={"User-Agent":ua.random}#請求網址 response=requests.get(url=url,headers=headers)#響應體內容 print(response.text)#響應狀態信息 print(response.status_code)#響應頭信息 print(response.headers)

2.在spider同級目錄下建立一個MidWare文件價里面寫一個user_agent_middlewares.py文件內容為

# -*- coding: utf-8 -*- from fake_useragent import UserAgentclass RandomUserAgentMiddlware(object):#隨機跟換user-agentdef __init__(self,crawler):super(RandomUserAgentMiddlware,self).__init__()self.ua = UserAgent()self.ua_type = crawler.settings.get('RANDOM_UA_TYPE','random')#從setting文件中讀取RANDOM_UA_TYPE值@classmethoddef from_crawler(cls,crawler):return cls(crawler)def process_request(self,request,spider): ###系統電泳函數def get_ua():return getattr(self.ua,self.ua_type)# user_agent_random=get_ua()request.headers.setdefault('User_Agent',get_ua())pass

3.在setting.py中添加

RANDOM_UA_TYPE = 'random'##random chromeDOWNLOADER_MIDDLEWARES = {'projectName.MidWare.user_agent_middlewares.RandomUserAgentMiddlware': 543, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,}

fake_userAgent偽裝代理就配置好了，與第一種方法相比不用寫一大串的瀏覽器頭，那些瀏覽器頭會在https://fake-useragent.herokuapp.com/browsers/0.1.7 中得到。

在第一次啟用fake_userAgent的時候會有一些錯，我認為是項目請求網絡時需要緩存一些內容而導致的。

github地址：https://github.com/sea1234/fake-useragent

總結

以上是生活随笔為你收集整理的scrapy 伪装代理和 fake_userAgent 的使用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Vim自动补全神器：YouComplet
下一篇： CrawlSpider 详解