日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy 伪装代理和 fake_userAgent 的使用

發布時間:2024/7/23 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 scrapy 伪装代理和 fake_userAgent 的使用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

From:https://www.cnblogs.com/hellangels333/p/8918938.html

fake-useragent 下載 和 使用方法:https://pypi.org/project/fake-useragent

?

偽裝瀏覽器代理 在爬取網頁是有些服務器對請求過濾的不是很高可以不用ip來偽裝請求直接將自己的瀏覽器信息給偽裝也是可以的。

第一種方法:

1.在setting.py文件中加入以下內容,這是一些瀏覽器的頭信息

USER_AGENT_LIST = ['zspider/0.9-dev http://feedback.redkolibri.com/','Xaldon_WebSpider/2.0.b1','Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)','Mozilla/5.0 (compatible; Speedy Spider; http://www.entireweb.com/about/search_tech/speedy_spider/)','Speedy Spider (Entireweb; Beta/1.3; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.2; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.1; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Entireweb; Beta/1.0; http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (Beta/1.0; www.entireweb.com)','Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)','Speedy Spider (http://www.entireweb.com/about/search_tech/speedyspider/)','Speedy Spider (http://www.entireweb.com)','Sosospider+(+http://help.soso.com/webspider.htm)','sogou spider','Nusearch Spider (www.nusearch.com)','nuSearch Spider (compatible; MSIE 4.01; Windows NT)','lmspider (lmspider@scansoft.com)','lmspider lmspider@scansoft.com','ldspider (http://code.google.com/p/ldspider/wiki/Robots)','iaskspider/2.0(+http://iask.com/help/help_index.html)','iaskspider','hl_ftien_spider_v1.1','hl_ftien_spider','FyberSpider (+http://www.fybersearch.com/fyberspider.php)','FyberSpider','everyfeed-spider/2.0 (http://www.everyfeed.com)','envolk[ITS]spider/1.6 (+http://www.envolk.com/envolkspider.html)','envolk[ITS]spider/1.6 ( http://www.envolk.com/envolkspider.html)','Baiduspider+(+http://www.baidu.com/search/spider_jp.html)','Baiduspider+(+http://www.baidu.com/search/spider.htm)','BaiDuSpider','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) AddSugarSpiderBot www.idealobserver.com',]

2.在spider同級目錄下建立一個MidWare文件價里面寫一個HeaderMidWare.py文件 內容為

# encoding: utf-8 from scrapy.utils.project import get_project_settings import randomsettings = get_project_settings()class ProcessHeaderMidware():"""process request add request info"""def process_request(self, request, spider):"""隨機從列表中獲得header, 并傳給user_agent進行使用"""ua = random.choice(settings.get('USER_AGENT_LIST')) spider.logger.info(msg='now entring download midware')if ua:request.headers['User-Agent'] = ua# Add desired logging message here.spider.logger.info(u'User-Agent is : {} {}'.format(request.headers.get('User-Agent'), request))pass

3.在setting.py文件中添加

DOWNLOADER_MIDDLEWARES = {
'projectName.MidWare.HeaderMidWare.ProcessHeaderMidware': 543,
}

?

?

第二種方法:fake_userAgent的使用

fake_userAgent是github上的開源項目
1.安裝 fake_userAgent
? ? pip install fake-useragent

fake_userAgent 使用方法

from fake_useragent import UserAgent import requestsua = UserAgent() print(ua.ie) #ie瀏覽器的user agent print(ua.opera) #opera瀏覽器 print(ua.chrome) #chrome瀏覽器 print(ua.firefox) #firefox瀏覽器 print(ua.safari) #safri瀏覽器#最常用的方式 #寫爬蟲最實用的是可以隨意變換headers,一定要有隨機性。支持隨機生成請求頭 print(ua.random) print(ua.random) print(ua.random)######################################################請求的網址 url="http://www.baidu.com"#請求頭 headers={"User-Agent":ua.random}#請求網址 response=requests.get(url=url,headers=headers)#響應體內容 print(response.text)#響應狀態信息 print(response.status_code)#響應頭信息 print(response.headers)


2.在spider同級目錄下建立一個MidWare文件價里面寫一個user_agent_middlewares.py文件內容為

# -*- coding: utf-8 -*- from fake_useragent import UserAgentclass RandomUserAgentMiddlware(object):#隨機跟換user-agentdef __init__(self,crawler):super(RandomUserAgentMiddlware,self).__init__()self.ua = UserAgent()self.ua_type = crawler.settings.get('RANDOM_UA_TYPE','random')#從setting文件中讀取RANDOM_UA_TYPE值@classmethoddef from_crawler(cls,crawler):return cls(crawler)def process_request(self,request,spider): ###系統電泳函數def get_ua():return getattr(self.ua,self.ua_type)# user_agent_random=get_ua()request.headers.setdefault('User_Agent',get_ua())pass

3.在setting.py中添加

RANDOM_UA_TYPE = 'random'##random chromeDOWNLOADER_MIDDLEWARES = {'projectName.MidWare.user_agent_middlewares.RandomUserAgentMiddlware': 543, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,}

fake_userAgent偽裝代理就配置好了,與第一種方法相比不用寫一大串的瀏覽器頭,那些瀏覽器頭會在https://fake-useragent.herokuapp.com/browsers/0.1.7 中得到。


在第一次啟用fake_userAgent的時候會有一些錯,我認為是項目請求網絡時需要緩存一些內容而導致的。

github地址:https://github.com/sea1234/fake-useragent

?

?

總結

以上是生活随笔為你收集整理的scrapy 伪装代理和 fake_userAgent 的使用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。