scrapy 伪装代理和 fake_userAgent 的使用
?
From:https://www.cnblogs.com/hellangels333/p/8918938.html
fake-useragent 下載 和 使用方法:https://pypi.org/project/fake-useragent
?
偽裝瀏覽器代理 在爬取網頁是有些服務器對請求過濾的不是很高可以不用ip來偽裝請求直接將自己的瀏覽器信息給偽裝也是可以的。
第一種方法:
1.在setting.py文件中加入以下內容,這是一些瀏覽器的頭信息
USER_AGENT_LIST = ['zspider/0.9-dev http://feedback.redkolibri.com/','Xaldon_WebSpider/2.0.b1','Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)','Mozilla/5.0 (compatible; Speedy Spider; http://www.entireweb.com/about/search_tech/speedy_spider/)','Speedy Spider (Entireweb; Beta/1.3; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.2; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.1; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.0; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Beta/1.0; www.entireweb.com)','Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)','Speedy Spider (http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (http://www.entireweb.com)','Sosospider+(+http://help.soso.com/webspider.htm)','sogou spider','Nusearch Spider (www.nusearch.com)','nuSearch Spider (compatible; MSIE 4.01; Windows NT)','lmspider (lmspider@scansoft.com)','lmspider lmspider@scansoft.com','ldspider (http://code.google.com/p/ldspider/wiki/Robots)','iaskspider/2.0(+http://iask.com/help/help_index.html)','iaskspider','hl_ftien_spider_v1.1','hl_ftien_spider','FyberSpider (+http://www.fybersearch.com/fyberspider.php)','FyberSpider','everyfeed-spider/2.0 (http://www.everyfeed.com)','envolk[ITS]spider/1.6 (+http://www.envolk.com/envolkspider.html)','envolk[ITS]spider/1.6 ( http://www.envolk.com/envolkspider.html)','Baiduspider+(+http://www.baidu.com/search/spider_jp.html)','Baiduspider+(+http://www.baidu.com/search/spider.htm)','BaiDuSpider','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) AddSugarSpiderBot www.idealobserver.com',]2.在spider同級目錄下建立一個MidWare文件價里面寫一個HeaderMidWare.py文件 內容為
# encoding: utf-8 from scrapy.utils.project import get_project_settings import randomsettings = get_project_settings()class ProcessHeaderMidware():"""process request add request info"""def process_request(self, request, spider):"""隨機從列表中獲得header, 并傳給user_agent進行使用"""ua = random.choice(settings.get('USER_AGENT_LIST')) spider.logger.info(msg='now entring download midware')if ua:request.headers['User-Agent'] = ua# Add desired logging message here.spider.logger.info(u'User-Agent is : {} {}'.format(request.headers.get('User-Agent'), request))pass3.在setting.py文件中添加
DOWNLOADER_MIDDLEWARES = {
'projectName.MidWare.HeaderMidWare.ProcessHeaderMidware': 543,
}
?
?
第二種方法:fake_userAgent的使用
fake_userAgent是github上的開源項目
1.安裝 fake_userAgent
? ? pip install fake-useragent
fake_userAgent 使用方法
from fake_useragent import UserAgent import requestsua = UserAgent() print(ua.ie) #ie瀏覽器的user agent print(ua.opera) #opera瀏覽器 print(ua.chrome) #chrome瀏覽器 print(ua.firefox) #firefox瀏覽器 print(ua.safari) #safri瀏覽器#最常用的方式 #寫爬蟲最實用的是可以隨意變換headers,一定要有隨機性。支持隨機生成請求頭 print(ua.random) print(ua.random) print(ua.random)######################################################請求的網址 url="http://www.baidu.com"#請求頭 headers={"User-Agent":ua.random}#請求網址 response=requests.get(url=url,headers=headers)#響應體內容 print(response.text)#響應狀態信息 print(response.status_code)#響應頭信息 print(response.headers)
2.在spider同級目錄下建立一個MidWare文件價里面寫一個user_agent_middlewares.py文件內容為
3.在setting.py中添加
RANDOM_UA_TYPE = 'random'##random chromeDOWNLOADER_MIDDLEWARES = {'projectName.MidWare.user_agent_middlewares.RandomUserAgentMiddlware': 543, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,}fake_userAgent偽裝代理就配置好了,與第一種方法相比不用寫一大串的瀏覽器頭,那些瀏覽器頭會在https://fake-useragent.herokuapp.com/browsers/0.1.7 中得到。
在第一次啟用fake_userAgent的時候會有一些錯,我認為是項目請求網絡時需要緩存一些內容而導致的。
github地址:https://github.com/sea1234/fake-useragent
?
?
總結
以上是生活随笔為你收集整理的scrapy 伪装代理和 fake_userAgent 的使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Vim自动补全神器:YouComplet
- 下一篇: CrawlSpider 详解