當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫模拟登陆手机验证码_网络爬虫干货总结，这次比较全面！

發(fā)布時間：2024/10/8 编程问答 82 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫模拟登陆手机验证码_网络爬虫干货总结，这次比较全面！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

我從五個方面介紹了利用 Python 進行網(wǎng)絡(luò)爬蟲開發(fā)的相關(guān)知識點和技巧：

抓取

解析

存儲

反爬

加速

一、爬取

爬取的目標(biāo)可以大致分為兩類：網(wǎng)頁、APP

對于網(wǎng)頁，可以分為兩種類別，即

服務(wù)端渲染
客戶端渲染

對于APP，可以分為四類，即

普通接口
加密參數(shù)接口
加密內(nèi)容接口
非常規(guī)協(xié)議接口

(一)網(wǎng)頁爬取

服務(wù)端渲染

對于服務(wù)端渲染，用一些基本的HTTP請求庫就可以實現(xiàn)爬取，如 urllib、urllib3、pycurl、hyper、requests、grab 等框架，其中應(yīng)用最多的可能就是 requests 了。

客戶端渲染

對于客戶端渲染，有四種處理方法：

尋找Ajax接口
此種情形可以直接使用 Chrome/Firefox 的開發(fā)者工具直接查看 Ajax 具體的請求方式、參數(shù)等內(nèi)容，然后用 HTTP 請求庫模擬即可，另外還可以通過設(shè)置代理抓包來查看接口，如 Fiddler/Charles。
模擬瀏覽器執(zhí)行
此種情形適用于網(wǎng)頁接口和邏輯較為復(fù)雜的情況，可以直接以可見即可爬的方式進行爬取，如可以使用 Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html 等來實現(xiàn)。
直接提取JavaScript數(shù)據(jù)
此種情形適用于真實數(shù)據(jù)沒有經(jīng)過 Ajax 接口獲取，而是直接包含在 HTML 結(jié)果的某個變量中，直接使用正則表達式將其提取即可。
模擬執(zhí)行JavaScript
某些情況下直接模擬瀏覽器執(zhí)行效率會偏低，如果把 JavaScript 的某些執(zhí)行和加密邏輯摸清楚了，可以直接執(zhí)行相關(guān)的 JavaScript 來完成邏輯處理和接口請求，比如使用 Selenium、PyExecJS、PyV8、js2py 等庫來完成即可。

(二)APP爬取

對于APP的爬取分為四種情況：

普通無加密接口
直接抓包拿到接口的具體請求形式就好，可用的抓包工具有 Charles、Fiddler、mitmproxy。
加密參數(shù)接口
一種方法可以實時處理，例如 Fiddler、mitmdump、Xposed 等，另一種方法是將加密邏輯破解，直接模擬構(gòu)造即可，可能需要一些反編譯的技巧。
加密內(nèi)容接口
即接口返回結(jié)果完全看不懂是什么東西，可以使用可見即可爬的工具 Appium，也可以使用 Xposed 來 hook 獲取渲染結(jié)果，也可以通過反編譯和改寫手機底層來實現(xiàn)破解。
非常規(guī)協(xié)議
可以使用 Wireshark 來抓取所有協(xié)議的包，或者使用 Tcpdump 來進行 TCP 數(shù)據(jù)包截獲。

二、解析

對于 HTML 類型的頁面來說，常用的解析方法其實無非那么幾種，正則、XPath、CSS Selector，另外對于某些接口，常見的可能就是 JSON、XML 類型，使用對應(yīng)的庫進行處理即可。

這些規(guī)則和解析方法其實寫起來是很繁瑣的，如果我們要爬上萬個網(wǎng)站，如果每個網(wǎng)站都去寫對應(yīng)的規(guī)則，那么不就太累了嗎？所以智能解析便是一個需求。智能解析意思就是說，如果能提供一個頁面，算法可以自動來提取頁面的標(biāo)題、正文、日期等內(nèi)容，同時把無用的信息給刨除。

三、存儲

存儲，即選用合適的存儲媒介來存儲爬取到的結(jié)果

進擊的Coder

四、反爬蟲

爬蟲現(xiàn)在已經(jīng)越來越難了，非常多的網(wǎng)站已經(jīng)添加了各種反爬措施，在這里可以分為非瀏覽器檢測、封 IP、驗證碼、封賬號、字體反爬等。

(一)防封IP

(二)驗證碼

驗證碼分為非常多種，如普通圖形驗證碼、算術(shù)題驗證碼、滑動驗證碼、點觸驗證碼、手機驗證碼、掃二維碼等。

對于普通圖形驗證碼，如果非常規(guī)整且沒有變形或干擾，可以使用 OCR 識別，也可以使用機器學(xué)習(xí)、深度學(xué)習(xí)來進行模型訓(xùn)練，當(dāng)然打碼平臺是最方便的方式。
對于算術(shù)題驗證碼，推薦直接使用打碼平臺。
python學(xué)習(xí)關(guān)注加群：839383 765 獲取最新python入門學(xué)習(xí)資料及視頻哦。
對于滑動驗證碼，可以使用破解算法，也可以模擬滑動。后者的關(guān)鍵在于缺口的找尋，可以使用圖片比對，也可以寫基本的圖形識別算法，也可以對接打碼平臺，也可以使用深度學(xué)習(xí)訓(xùn)練識別接口。
對于點觸驗證碼，推薦使用打碼平臺。
對于手機驗證碼，可以使用驗證碼分發(fā)平臺，也可以購買專門的收碼設(shè)備，也可以人工驗證。
對于掃二維碼，可以人工掃碼，也可以對接打碼平臺。

(三)防封號

一些網(wǎng)站需要登錄才能爬取，但是一個賬號登錄之后請求過于頻繁會被封號，為了避免封號，可以采取如下措施：

五、加速

當(dāng)爬取的數(shù)據(jù)量非常大時，如何高效快速地進行數(shù)據(jù)抓取是關(guān)鍵。常見的措施有多線程、多進程、異步、分布式、細節(jié)優(yōu)化等。

(一)多線程、多進程

爬蟲是網(wǎng)絡(luò)請求密集型任務(wù)，所以使用多進程和多線程可以大大提高抓取效率，如使用 threading、multiprocessing 等。

(二)異步

將爬取過程改成非阻塞形式，當(dāng)有響應(yīng)式再進行處理，否則在等待時間內(nèi)可以運行其他任務(wù)，如使用 asyncio、aiohttp、Tornado、Twisted、gevent、grequests、pyppeteer、pyspider、Scrapy 等。

(三)分布式

分布式的關(guān)鍵在于共享爬取隊列，可以使用 celery、huey、rq、rabbitmq、kafka 等來實現(xiàn)任務(wù)隊列的對接，也可以使用現(xiàn)成的框架 pyspider、Scrapy-Redis、Scrapy-Cluster 等。

(四) 優(yōu)化

(五)架構(gòu)

好了，更多爬蟲內(nèi)容記得關(guān)注我們哦！

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的爬虫模拟登陆手机验证码_网络爬虫干货总结，这次比较全面！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：引导u盘怎么制作工具制作U盘引导工具方
下一篇： csrf漏洞防御方案_变量覆盖漏洞利用及