當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫工具简单整理

發布時間：2023/12/20 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫工具简单整理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、crawlzilla

crawlzilla 是一個幫你輕松建立搜索引擎的自由軟件，有了它，你就不用依靠商業公司的搜索引擎，也不用再煩惱公司內部網站資料索引的問題。

由 nutch 專案為核心，并整合更多相關套件，并卡發設計安裝與管理UI，讓使用者更方便上手。

crawlzilla 除了爬取基本的 html 外，還能分析網頁上的文件，如（ doc、pdf、ppt、ooo、rss ）等多種文件格式，讓你的搜索引擎不只是網頁搜索引擎，而是網站的完整資料索引庫。

擁有中文分詞能力，讓你的搜索更精準。

crawlzilla的特色與目標，最主要就是提供使用者一個方便好用易安裝的搜索平臺。

2、Heritrix

Heritrix 是一個由 java 開發的、開源的網絡爬蟲，用戶可以使用它來從網上抓取想要的資源。其最出色之處在于它良好的可擴展性，方便用戶實現自己的抓取邏輯。

Heritrix采用的是模塊化的設計，各個模塊由一個控制器類（CrawlController類）來協調，控制器是整體的核心。

3、webmagic

webmagic的是一個無須配置、便于二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼即可實現一個爬蟲。

webmagic采用完全模塊化的設計，功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化)，支持多線程抓取，分布式抓取，并支持自動重試、自定義UA/cookie等功能。

webmagic包含強大的頁面抽取功能，開發者可以便捷的使用css selector、xpath和正則表達式進行鏈接和內容的提取，支持多個選擇器鏈式調用。

webmagic的使用文檔：http://webmagic.io/docs/

查看源代碼：http://git.oschina.net/flashsword20/webmagic

4、ThinkUp

ThinkUp 是一個可以采集推特，facebook等社交網絡數據的社會媒體視角引擎。通過采集個人的社交網絡賬號中的數據，對其存檔以及處理的交互分析工具，并將數據圖形化以便更直觀的查看。

火車頭: 功能全，歷史悠久，但配置太過復雜，且功能眾多很難掌握，但確實功能很全面，是通用采集軟件，簡單的頁面什么都可以采集。

網絡礦工: 推出時間不長，略微不夠穩定，但其提供的數據采集和數據加工何為一體的功能很不錯。

有訊軟件：實際上它并不是提供軟件，而是提供采集服務。你只要告訴他們要采集哪里的數據，和要采集的具體內容，其它什么都不需要懂，也不需要做，他們就會把采集到的數據提供給你們，而且還可以滿足你的任何數據處理要求。

網絡神采：同樣也是一款歷史悠久的軟件，采集方面也很強大，其他方面沒有太深的影響。

狂人、三人行，未用過，但據說采集論壇和博客是很強悍的，采集其他類型的數據和稍微復雜點的數據就不行了。

gooseeker：好像是提供在線采集的，沒用過，它們的網站看不懂。但據說也還不錯。

個人覺得：如果你是采集純靜態頁面，且數據結構不是很復雜的那種，也懂點技術的，那就用火車頭吧。

原文：http://blog.sina.com.cn/s/blog_15b9403ba0102wosv.html

轉載于:https://www.cnblogs.com/wangqiao170/p/8919711.html

以上是生活随笔為你收集整理的爬虫工具简单整理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。