日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫模拟登陆手机验证码_网络爬虫干货总结,这次比较全面!

發(fā)布時間:2024/10/8 编程问答 82 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫模拟登陆手机验证码_网络爬虫干货总结,这次比较全面! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

我從五個方面介紹了利用 Python 進行網(wǎng)絡(luò)爬蟲開發(fā)的相關(guān)知識點和技巧:

  • 抓取
  • 解析
  • 存儲
  • 反爬
  • 加速
  • 目錄

    一、爬取

    爬取的目標(biāo)可以大致分為兩類:網(wǎng)頁、APP

    對于網(wǎng)頁,可以分為兩種類別,即

    • 服務(wù)端渲染
    • 客戶端渲染

    對于APP,可以分為四類,即

    • 普通接口
    • 加密參數(shù)接口
    • 加密內(nèi)容接口
    • 非常規(guī)協(xié)議接口

    (一)網(wǎng)頁爬取

    服務(wù)端渲染

    對于服務(wù)端渲染,用一些基本的HTTP請求庫就可以實現(xiàn)爬取,如 urllib、urllib3、pycurl、hyper、requests、grab 等框架,其中應(yīng)用最多的可能就是 requests 了。

    客戶端渲染

    對于客戶端渲染,有四種處理方法:

    • 尋找Ajax接口
    • 此種情形可以直接使用 Chrome/Firefox 的開發(fā)者工具直接查看 Ajax 具體的請求方式、參數(shù)等內(nèi)容,然后用 HTTP 請求庫模擬即可,另外還可以通過設(shè)置代理抓包來查看接口,如 Fiddler/Charles。
    • 模擬瀏覽器執(zhí)行
    • 此種情形適用于網(wǎng)頁接口和邏輯較為復(fù)雜的情況,可以直接以可見即可爬的方式進行爬取,如可以使用 Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html 等來實現(xiàn)。
    • 直接提取JavaScript數(shù)據(jù)
    • 此種情形適用于真實數(shù)據(jù)沒有經(jīng)過 Ajax 接口獲取,而是直接包含在 HTML 結(jié)果的某個變量中,直接使用正則表達式將其提取即可。
    • 模擬執(zhí)行JavaScript
    • 某些情況下直接模擬瀏覽器執(zhí)行效率會偏低,如果把 JavaScript 的某些執(zhí)行和加密邏輯摸清楚了,可以直接執(zhí)行相關(guān)的 JavaScript 來完成邏輯處理和接口請求,比如使用 Selenium、PyExecJS、PyV8、js2py 等庫來完成即可。

    (二)APP爬取

    對于APP的爬取分為四種情況:

    • 普通無加密接口
    • 直接抓包拿到接口的具體請求形式就好,可用的抓包工具有 Charles、Fiddler、mitmproxy。
    • 加密參數(shù)接口
    • 一種方法可以實時處理,例如 Fiddler、mitmdump、Xposed 等,另一種方法是將加密邏輯破解,直接模擬構(gòu)造即可,可能需要一些反編譯的技巧。
    • 加密內(nèi)容接口
    • 即接口返回結(jié)果完全看不懂是什么東西,可以使用可見即可爬的工具 Appium,也可以使用 Xposed 來 hook 獲取渲染結(jié)果,也可以通過反編譯和改寫手機底層來實現(xiàn)破解。
    • 非常規(guī)協(xié)議
    • 可以使用 Wireshark 來抓取所有協(xié)議的包,或者使用 Tcpdump 來進行 TCP 數(shù)據(jù)包截獲。

    二、解析

    對于 HTML 類型的頁面來說,常用的解析方法其實無非那么幾種,正則、XPath、CSS Selector,另外對于某些接口,常見的可能就是 JSON、XML 類型,使用對應(yīng)的庫進行處理即可。

    這些規(guī)則和解析方法其實寫起來是很繁瑣的,如果我們要爬上萬個網(wǎng)站,如果每個網(wǎng)站都去寫對應(yīng)的規(guī)則,那么不就太累了嗎?所以智能解析便是一個需求。智能解析意思就是說,如果能提供一個頁面,算法可以自動來提取頁面的標(biāo)題、正文、日期等內(nèi)容,同時把無用的信息給刨除。

    三、存儲

    存儲,即選用合適的存儲媒介來存儲爬取到的結(jié)果

    進擊的Coder

    四、反爬蟲

    爬蟲現(xiàn)在已經(jīng)越來越難了,非常多的網(wǎng)站已經(jīng)添加了各種反爬措施,在這里可以分為非瀏覽器檢測、封 IP、驗證碼、封賬號、字體反爬等。

    (一)防封IP

    (二)驗證碼

    驗證碼分為非常多種,如普通圖形驗證碼、算術(shù)題驗證碼、滑動驗證碼、點觸驗證碼、手機驗證碼、掃二維碼等。

    • 對于普通圖形驗證碼,如果非常規(guī)整且沒有變形或干擾,可以使用 OCR 識別,也可以使用機器學(xué)習(xí)、深度學(xué)習(xí)來進行模型訓(xùn)練,當(dāng)然打碼平臺是最方便的方式。
    • 對于算術(shù)題驗證碼,推薦直接使用打碼平臺。
    • python學(xué)習(xí)關(guān)注加群:839383 765 獲取最新python入門學(xué)習(xí)資料及視頻哦。
    • 對于滑動驗證碼,可以使用破解算法,也可以模擬滑動。后者的關(guān)鍵在于缺口的找尋,可以使用圖片比對,也可以寫基本的圖形識別算法,也可以對接打碼平臺,也可以使用深度學(xué)習(xí)訓(xùn)練識別接口。
    • 對于點觸驗證碼,推薦使用打碼平臺。
    • 對于手機驗證碼,可以使用驗證碼分發(fā)平臺,也可以購買專門的收碼設(shè)備,也可以人工驗證。
    • 對于掃二維碼,可以人工掃碼,也可以對接打碼平臺。

    (三)防封號

    一些網(wǎng)站需要登錄才能爬取,但是一個賬號登錄之后請求過于頻繁會被封號,為了避免封號,可以采取如下措施:

    五、加速

    當(dāng)爬取的數(shù)據(jù)量非常大時,如何高效快速地進行數(shù)據(jù)抓取是關(guān)鍵。常見的措施有多線程、多進程、異步、分布式、細節(jié)優(yōu)化等。

    (一)多線程、多進程

    爬蟲是網(wǎng)絡(luò)請求密集型任務(wù),所以使用多進程和多線程可以大大提高抓取效率,如使用 threading、multiprocessing 等。

    (二)異步

    將爬取過程改成非阻塞形式,當(dāng)有響應(yīng)式再進行處理,否則在等待時間內(nèi)可以運行其他任務(wù),如使用 asyncio、aiohttp、Tornado、Twisted、gevent、grequests、pyppeteer、pyspider、Scrapy 等。

    (三)分布式

    分布式的關(guān)鍵在于共享爬取隊列,可以使用 celery、huey、rq、rabbitmq、kafka 等來實現(xiàn)任務(wù)隊列的對接,也可以使用現(xiàn)成的框架 pyspider、Scrapy-Redis、Scrapy-Cluster 等。

    (四) 優(yōu)化

    (五)架構(gòu)

    好了,更多爬蟲內(nèi)容記得關(guān)注我們哦!

    與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

    總結(jié)

    以上是生活随笔為你收集整理的爬虫模拟登陆手机验证码_网络爬虫干货总结,这次比较全面!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。