爬虫工具简单整理
1、crawlzilla
crawlzilla 是一個幫你輕松建立搜索引擎的自由軟件,有了它,你就不用依靠商業公司的搜索引擎,也不用再煩惱公司內部網站資料索引的問題。
由 nutch 專案為核心,并整合更多相關套件,并卡發設計安裝與管理UI,讓使用者更方便上手。
crawlzilla 除了爬取基本的 html 外,還能分析網頁上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網頁搜索引擎,而是網站的完整資料索引庫。
擁有中文分詞能力,讓你的搜索更精準。
crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜索平臺。
- 授權協議: Apache License 2
- 開發語言: Java JavaScript SHELL
- 操作系統: Linux
- 項目主頁: https://github.com/shunfa/crawlzilla
- 下載地址: http://sourceforge.net/projects/crawlzilla/
- 特點:安裝簡易,擁有中文分詞功能
2、Heritrix
Heritrix 是一個由 java 開發的、開源的網絡爬蟲,用戶可以使用它來從網上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶實現自己的抓取邏輯。
Heritrix采用的是模塊化的設計,各個模塊由一個控制器類(CrawlController類)來協調,控制器是整體的核心。
- 代碼托管:https://github.com/internetarchive/heritrix3
- 授權協議: Apache
- 開發語言: Java
- 操作系統: 跨平臺
- 特點:嚴格遵照robots文件的排除指示和META robots標簽
3、webmagic
webmagic的是一個無須配置、便于二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。
webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。
webmagic包含強大的頁面抽取功能,開發者可以便捷的使用css selector、xpath和正則表達式進行鏈接和內容的提取,支持多個選擇器鏈式調用。
webmagic的使用文檔:http://webmagic.io/docs/
查看源代碼:http://git.oschina.net/flashsword20/webmagic
- 授權協議: Apache
- 開發語言: Java
- 操作系統: 跨平臺
- 特點:功能覆蓋整個爬蟲生命周期,使用Xpath和正則表達式進行鏈接和內容的提取。
- 備注:這是一款國產開源軟件,由 黃億華貢獻
4、ThinkUp
ThinkUp 是一個可以采集推特,facebook等社交網絡數據的社會媒體視角引擎。通過采集個人的社交網絡賬號中的數據,對其存檔以及處理的交互分析工具,并將數據圖形化以便更直觀的查看。
- 授權協議: GPL
- 開發語言: PHP
- 操作系統: 跨平臺
- github源碼:https://github.com/ThinkUpLLC/ThinkUp
火車頭: 功能全,歷史悠久,但配置太過復雜,且功能眾多很難掌握,但確實功能很全面,是通用采集軟件,簡單的頁面什么都可以采集。
網絡礦工: 推出時間不長,略微不夠穩定,但其提供的數據采集和數據加工何為一體的功能很不錯。
有訊軟件:實際上它并不是提供軟件,而是提供采集服務。你只要告訴他們要采集哪里的數據,和要采集的具體內容,其它什么都不需要懂,也不需要做,他們就會把采集到的數據提供給你們,而且還可以滿足你的任何數據處理要求。
網絡神采:同樣也是一款歷史悠久的軟件,采集方面也很強大,其他方面沒有太深的影響。
狂人、三人行,未用過,但據說采集論壇和博客是很強悍的,采集其他類型的數據和稍微復雜點的數據就不行了。
gooseeker:好像是提供在線采集的,沒用過,它們的網站看不懂。但據說也還不錯。
個人覺得:如果你是采集純靜態頁面,且數據結構不是很復雜的那種,也懂點技術的,那就用火車頭吧。
原文:http://blog.sina.com.cn/s/blog_15b9403ba0102wosv.html
轉載于:https://www.cnblogs.com/wangqiao170/p/8919711.html
總結
- 上一篇: oracle 如何创建、删除用户并授予权
- 下一篇: Microsoft 离线翻译引擎介绍