日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python selenium采集速卖通_2.不苟的爬虫小教程系列:python爬虫技术栈介绍

發(fā)布時間:2024/7/23 python 82 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python selenium采集速卖通_2.不苟的爬虫小教程系列:python爬虫技术栈介绍 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

鑒于爬蟲初學(xué)者們,往往也是編程的初學(xué)者,我在這里介紹一套最常用的技術(shù)棧,不求多,只求精。

畢竟我們的目標(biāo)是采集到數(shù)據(jù),只要能夠成功實現(xiàn)目標(biāo)的工具就是好工具。

  • 爬蟲框架scrapy:該框架是scrapinghub公司開發(fā)并開源的,經(jīng)歷過時間的檢驗,好用,性能佳。
  • http請求庫requests:requests官方是這樣介紹這個庫的:“Requests 是個為Python而寫的優(yōu)雅又簡單的HTTP庫”我們可以在爬蟲代碼開發(fā)過程中使用這個庫進(jìn)行調(diào)試,甚至一些簡單的爬蟲完全可以只用requests來實現(xiàn)。
  • http請求curl:說起調(diào)試爬蟲,就一定得提到curl,這個工具非常好用。在chrome中可以一鍵生成某個請求的curl命令,然后修改參數(shù)以調(diào)試可驗證接口可接受參數(shù)的范圍。
  • 一個爬蟲所需要的工具就這么多了。除了上面介紹的這些,你可能還需要一臺電腦和一根網(wǎng)線。

    在本教程中,不會過多涉及存儲。你完全可以將采集回來的數(shù)據(jù)以任何你認(rèn)為方便的方式存儲。如果你不太會使用數(shù)據(jù)庫的話,直接用文件存儲也可以。


    如果你還想了解更多的話,可以看看下面這些工具。

  • urllib3:其實還有urllib和urllib2,是比較底層的原生http請求庫。如果你沒有直接使用過它們,那說明你不需要學(xué)習(xí)它們。
  • grab:另一個爬蟲框架,并非python爬蟲業(yè)界主流。有興趣可以讀讀源碼。
  • asyncio:py3中的一個異步協(xié)程庫。
  • aiohttp:基于asyncio實現(xiàn)的一個異步協(xié)程http請求庫。
  • pyspider:爬蟲專家binux業(yè)余開發(fā)的一套爬蟲框架,帶UI展示。但是維護(hù)不頻繁,也不如scrapy好用。大家有空可以讀讀源碼學(xué)習(xí)一下,不推薦工業(yè)使用。
  • 模擬瀏覽器:

  • 以前常用技術(shù)棧有selenium+phatomjs,其中selenium是個自動化測試框架,phatomjs是個無界面瀏覽器,但phatomjs已經(jīng)停止開發(fā)了。
  • 目前更為常用的方案應(yīng)該是selenium+chrome headless,或是pyppeteer跟splash。
  • chrome headless就是chrome瀏覽器的無界面版本,我們將在后續(xù)文章中著重介紹。
  • pyppeteer則是基于puppeteer進(jìn)行封裝的另一個chrome headless自動化測試框架。
  • splash則是scrapinghub公司研發(fā)的,比較適合只對js進(jìn)行渲染,而不進(jìn)行點擊或任何其他步驟的操作。
  • 抓包分析工具:

  • 最常用的還是chrome和firefox的開發(fā)者工具,我們的教程中幾乎都是chrome開發(fā)者工具作為示例。
  • app抓包可以使用fiddler和charless,如果搞不定就得上更加高端的wireshark。甚至是mitmproxy或anyproxy進(jìn)行抓包。
  • 后續(xù)在我們講解到app抓取時,我們會比較詳細(xì)的介紹app如何反編譯,找到加密算法。但其實app抓取更常用的手段是Appium模擬,這類似于PC端使用瀏覽器進(jìn)行渲染。
  • 建議爬蟲初學(xué)者不要一次學(xué)習(xí)太多工具,只要先對每個工具的作用做一個初步了解,后續(xù)伴隨著項目的進(jìn)行,遇到合適的場景下選擇合適的工具即可。

    總結(jié)

    以上是生活随笔為你收集整理的python selenium采集速卖通_2.不苟的爬虫小教程系列:python爬虫技术栈介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。