日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫小记:利用cookies跳过登陆验证码

發(fā)布時間:2024/7/5 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫小记:利用cookies跳过登陆验证码 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

在爬取某些網(wǎng)頁時,登陸界面時經(jīng)常遇到的一個坎,而現(xiàn)在大多數(shù)的網(wǎng)站在登陸時都會要求用戶填寫驗證碼。當然,我們可以設計一套機器學習的算法去破解驗證碼,然而,驗證碼的形式多種多樣,稍微變一下(有些甚至是手機短信驗證),整套算法可能就完全無效了,所以去強行破解驗證碼是一個吃力不討好的活。本文會以知乎網(wǎng)站為例,利用python中的request模塊進行的一個模擬登陸,其中用到了reqeust.session下的cookies來跳過登陸這一環(huán)節(jié)。

方案詳述

下面以模擬登陸知乎為例,利用python3.6進行詳細的過程敘述,建議使用pycharm作為IDE。
首先,我們要將headers給設置好

agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36" headers = {"HOST": "www.zhihu.com","Referer": "http://www.zhihu.com","User-Agent": agent }

接著,用賬號成功登陸一次知乎,并按下“F12”(Chrome瀏覽器),找到Resources下的Cookies,將顯示的Cookies全都復制下來,即下圖紅框中的”Name”和”Value”。


圖1:如何找到Cookies
圖中一些個人隱私信息已經(jīng)擦去,圖可能有點看不清,但應該能看明白,湊合一下吧~
將復制下來的Cookies寫成字典的形式由于隱私問題,下面是不完整的Cookies。

cookies = {"cap_id" : "MWQ0Yzk4NGI1Y2M4NG*********","r_cap_id" : "OTUyOTY1YjFjMDQ5NGEx*********","z_c0" : "Mi4xWVduN0FRQUFB**********","q_c1" : "108429c2422245a0********","d_c0" : "ADBCEDC-5guPTr*********","aliyungf_tc" : "AQAAAAaQE*************","_zap" : "92146d2b-**********","_xsrf" : "01124268-4638-***************","__utmz" : "51854390.15038440***********","__utmv" : "51854390.000**************","__utma" : "51854390.4***********" }

然后創(chuàng)建一個session對象,將headers和cookies賦給session

import Requestssession = Requests.session() session.headers = headers requests.utils.add_dict_to_cookiejar(session.cookies, cookies)

其中,值得注意的是,session.headers可以是dict,所以直接賦值沒問題,而session.cookies必須是<class ‘requests.cookies.RequestsCookieJar’>,所以要利用requests.utils.add_dict_to_cookiejar進行賦值。
好了,現(xiàn)在我們已經(jīng)完事具備了,可以直接訪問知乎了,就是這么簡單。

url = "https://www.zhihu.com/" response = session.get(url)

比如這個時候,我們想把訪問到的頁面給保存下來,我們就可以這么干。

with open("test.html", "wb") as f:f.write(response.text.encode('utf-8'))

登陸進去了之后,就是想怎么來,就怎么來了~
這里還要補充一點就是,我們?nèi)绻X得把cookies寫在源代碼中不太雅觀的話,可以將其保存到本地文件當中

import jsondef save_cookies(cookies):cookies_file = 'export.json'with open(cookies_file, 'w') as f:json.dump(cookies, f)

保存成Json格式之后,可以在cookies過期之后,直接在文件當中修改cookies,要讀取cookies也很方便

def load_cookies():cookie_json = {}try:with open('export.json', 'r') as cookies_file:cookie_json = json.load(cookies_file)except:print ("Json load failed")finally:return cookie_json

值得注意的是,這個時候出來的cookies也是dict類型的,別忘了轉(zhuǎn)換成cookiejar。

完整代碼

我們可以把上面的代碼整理一下,寫成下面這樣
文件1:用來存儲cookies

import jsondef save_cookies(cookies):cookies_file = 'export.json'with open(cookies_file, 'w') as f:json.dump(cookies, f)def main():cookies = {"cap_id" : "MWQ0Yzk4NGI1Y2M4NG*********","r_cap_id" : "OTUyOTY1YjFjMDQ5NGEx*********","z_c0" : "Mi4xWVduN0FRQUFB**********","q_c1" : "108429c2422245a0********","d_c0" : "ADBCEDC-5guPTr*********","aliyungf_tc" : "AQAAAAaQE*************","_zap" : "92146d2b-**********","_xsrf" : "01124268-4638-***************","__utmz" : "51854390.15038440***********","__utmv" : "51854390.000**************","__utma" : "51854390.4***********"}save_cookies(cookies)if __name__ == '__main__':main()

文件2:用來模擬登陸

import requestsdef load_cookies():cookie_json = {}try:with open('export.json', 'r') as cookies_file:cookie_json = json.load(cookies_file)except:print ("Json load failed")finally:return cookie_jsondef main():agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"headers = {"HOST": "www.zhihu.com","Referer": "http://www.zhihu.com","User-Agent": agent}session = requests.session()session.headers = headersrequests.utils.add_dict_to_cookiejar(session.cookies, load_cookies())url = "https://www.zhihu.com/"response = session.get(url)with open("test.html", "wb") as f:f.write(response.text.encode('utf-8'))print ("Done")if __name__ == '__main__':main()

注意本文創(chuàng)作時間,如果閱讀時已經(jīng)過了很久,代碼可能不起效。
如有不足,還請指正~

總結

以上是生活随笔為你收集整理的爬虫小记:利用cookies跳过登陆验证码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。