當前位置：首頁 > 编程语言 > python >内容正文

python

9个用来爬取网络站点的 Python 库

發布時間：2024/4/14 python 62 豆豆

生活随笔收集整理的這篇文章主要介紹了 9个用来爬取网络站点的 Python 库小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上期入口：10個不到500行代碼的超牛Python練手項目

1??Scrapy

一個開源和協作框架，用于從網站中提取所需的數據。以快速，簡單，可擴展的方式。

官網：https://scrapy.org/

相關課程推薦：Python 網站信息爬蟲

2??cola

一個分布式爬蟲框架。

GitHub https://github.com/chineking/cola

3??Demiurge

基于 PyQuery 的爬蟲微型框架。

官網https://demiurge.readthedocs.io/en/v0.2/

4??feedparser

通用 feed 解析器。

官網https://pythonhosted.org/feedparser/

5??Grab

Grab 是一個用于構建 Web scraper 的 python 框架。使用 Grab，您可以構建各種復雜性的 Web scraper，從簡單的5行腳本到處理數百萬個 Web 頁面的復雜異步網站爬蟲。 Grab 提供用于執行網絡請求和處理所接收內容的 API。與 HTML 文檔的 DOM 樹交互。

官網：https://grablib.org/en/latest/

6??MechanicalSoup

用于自動和網絡站點交互的 Python 庫。

GitHubhttps://github.com/MechanicalSoup/MechanicalSoup

7??portia

Scrapy 可視化爬取。允許你在不需要任何編程知識的情況下直觀地抓取網站。使用 Portia 可以注釋一個網頁以識別您想要提取的數據，Portia 將根據這些注釋了解如何從類似頁面中抓取數據。

GitHubhttps://github.com/scrapinghub/portia

8??pyspider

一個強大的爬蟲系統。

官網http://docs.pyspider.org/

9??RoboBrowser

一個簡單的，Python 風格的庫，用來瀏覽網站，而不需要一個獨立安裝的瀏覽器。

官網https://scrapy.org/

【關于技術清單】技術清單是由實驗樓整合、梳理的一系列知識點合輯；每輯都有MD，PDF和思維導圖多樣呈現，并提供下載。本期為Python系列，包含5篇精選清單，下載方式如下：

相關閱讀

8個爽滑的Windows小軟件，不好用你拿王思蔥砸死我

60人，42天，死磕機器學習，結果如下。

武俠版編程語言…Java像張無忌還是令狐沖？

大量機器學習&深度學習資料

技術變現，到底怎么變？

超強干貨來襲云風專訪：近40年碼齡，通宵達旦的技術人生

總結

以上是生活随笔為你收集整理的9个用来爬取网络站点的 Python 库的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：大牛推荐的30本经典编程书籍，从Pyth
下一篇： websocket python爬虫_p