python网络爬虫系列(十)——chrome在爬虫中的使用
chrome瀏覽器使用方法介紹
學(xué)習(xí)目標(biāo)
1 新建隱身窗口
瀏覽器中直接打開(kāi)網(wǎng)站,會(huì)自動(dòng)帶上之前網(wǎng)站時(shí)保存的cookie,但是在爬蟲(chóng)中首次獲取頁(yè)面是沒(méi)有攜帶cookie的,這種情況如何解決呢?
使用隱身窗口,首次打開(kāi)網(wǎng)站,不會(huì)帶上cookie,能夠觀察頁(yè)面的獲取情況,包括對(duì)方服務(wù)器如何設(shè)置cookie在本地
2 chrome中network的更多功能
2.1 Perserve log
默認(rèn)情況下,頁(yè)面發(fā)生跳轉(zhuǎn)之后,之前的請(qǐng)求url地址等信息都會(huì)消失,勾選perserve log后之前的請(qǐng)求都會(huì)被保留
2.2 filter過(guò)濾
在url地址很多的時(shí)候,可以在filter中輸入部分url地址,對(duì)所有的url地址起到一定的過(guò)濾效果,具體位置在上面第二幅圖中的2的位置
2.3 觀察特定種類的請(qǐng)求
在上面第二幅圖中的3的位置,有很多選項(xiàng),默認(rèn)是選擇的all,即會(huì)觀察到所有種類的請(qǐng)求
很多時(shí)候處于自己的目的可以選擇all右邊的其他選項(xiàng),比如常見(jiàn)的選項(xiàng):
- XHR:大部分情況表示ajax請(qǐng)求
- JS:js請(qǐng)求
- CSS:css請(qǐng)求
但是很多時(shí)候我們并不能保證我們需要的請(qǐng)求是什么類型,特別是我們不清楚一個(gè)請(qǐng)求是否為ajax請(qǐng)求的時(shí)候,直接選擇all,從前往后觀察即可,其中js,css,圖片等不去觀察即可
不要被瀏覽器中的一堆請(qǐng)求嚇到了,這些請(qǐng)求中除了js,css,圖片的請(qǐng)求外,其他的請(qǐng)求并沒(méi)有多少個(gè)
3 尋找登錄接口
回顧之前人人網(wǎng)的爬蟲(chóng)我們找到了一個(gè)登陸接口,那么這個(gè)接口從哪里找到的呢?
http://www.renren.com
3.1 尋找action對(duì)的url地址
可以發(fā)現(xiàn),這個(gè)地址就是在登錄的form表單中action對(duì)應(yīng)的url地址,回顧前端的知識(shí)點(diǎn),可以發(fā)現(xiàn)就是進(jìn)行表單提交的地址,對(duì)應(yīng)的,提交的數(shù)據(jù),僅僅需要:用戶名的input標(biāo)簽中,name的值作為鍵,用戶名作為值,密碼的input標(biāo)簽中,name的值作為鍵,密碼作為值即可
思考:
如果action對(duì)應(yīng)的沒(méi)有url地址的時(shí)候可以怎么做?
3.2 通過(guò)抓包尋找登錄的url地址
通過(guò)抓包可以發(fā)現(xiàn),在這個(gè)url地址和請(qǐng)求體中均有參數(shù),比如uniqueTimestamp和rkey以及加密之后的password
這個(gè)時(shí)候我們可以觀察手機(jī)版的登錄接口,是否也是一樣的
可以發(fā)現(xiàn)在手機(jī)版中,依然有參數(shù),但是參數(shù)的個(gè)數(shù)少一些,這個(gè)時(shí)候,我們可以使用手機(jī)版作為參考,下一節(jié)來(lái)學(xué)習(xí)如何分析js
小結(jié)
- 尋找from表單action的url地址
- 通過(guò)抓包獲取
總結(jié)
以上是生活随笔為你收集整理的python网络爬虫系列(十)——chrome在爬虫中的使用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: jQuery学习笔记系列(三)——事件注
- 下一篇: python五子棋人机对战_Python