日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫工具简单整理

發布時間:2023/12/20 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫工具简单整理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、crawlzilla

crawlzilla 是一個幫你輕松建立搜索引擎的自由軟件,有了它,你就不用依靠商業公司的搜索引擎,也不用再煩惱公司內部網站資料索引的問題。

由 nutch 專案為核心,并整合更多相關套件,并卡發設計安裝與管理UI,讓使用者更方便上手。

crawlzilla 除了爬取基本的 html 外,還能分析網頁上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網頁搜索引擎,而是網站的完整資料索引庫。

擁有中文分詞能力,讓你的搜索更精準。

crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜索平臺。

  • 授權協議: Apache License 2
  • 開發語言: Java JavaScript SHELL
  • 操作系統: Linux
  • 項目主頁: https://github.com/shunfa/crawlzilla
  • 下載地址: http://sourceforge.net/projects/crawlzilla/
  • 特點:安裝簡易,擁有中文分詞功能

2、Heritrix

Heritrix 是一個由 java 開發的、開源的網絡爬蟲,用戶可以使用它來從網上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶實現自己的抓取邏輯。

Heritrix采用的是模塊化的設計,各個模塊由一個控制器類(CrawlController類)來協調,控制器是整體的核心。

  • 代碼托管:https://github.com/internetarchive/heritrix3
  • 授權協議: Apache
  • 開發語言: Java
  • 操作系統: 跨平臺
  • 特點:嚴格遵照robots文件的排除指示和META robots標簽

3、webmagic

webmagic的是一個無須配置、便于二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。

webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。

webmagic包含強大的頁面抽取功能,開發者可以便捷的使用css selector、xpath和正則表達式進行鏈接和內容的提取,支持多個選擇器鏈式調用。

webmagic的使用文檔:http://webmagic.io/docs/

查看源代碼:http://git.oschina.net/flashsword20/webmagic

  • 授權協議: Apache
  • 開發語言: Java
  • 操作系統: 跨平臺
  • 特點:功能覆蓋整個爬蟲生命周期,使用Xpath和正則表達式進行鏈接和內容的提取。
  • 備注:這是一款國產開源軟件,由 黃億華貢獻

4、ThinkUp

ThinkUp 是一個可以采集推特,facebook等社交網絡數據的社會媒體視角引擎。通過采集個人的社交網絡賬號中的數據,對其存檔以及處理的交互分析工具,并將數據圖形化以便更直觀的查看。

  • 授權協議: GPL
  • 開發語言: PHP
  • 操作系統: 跨平臺
  • github源碼:https://github.com/ThinkUpLLC/ThinkUp

火車頭: 功能全,歷史悠久,但配置太過復雜,且功能眾多很難掌握,但確實功能很全面,是通用采集軟件,簡單的頁面什么都可以采集。

網絡礦工: 推出時間不長,略微不夠穩定,但其提供的數據采集和數據加工何為一體的功能很不錯。

有訊軟件:實際上它并不是提供軟件,而是提供采集服務。你只要告訴他們要采集哪里的數據,和要采集的具體內容,其它什么都不需要懂,也不需要做,他們就會把采集到的數據提供給你們,而且還可以滿足你的任何數據處理要求。

網絡神采:同樣也是一款歷史悠久的軟件,采集方面也很強大,其他方面沒有太深的影響。

狂人、三人行,未用過,但據說采集論壇和博客是很強悍的,采集其他類型的數據和稍微復雜點的數據就不行了。

gooseeker:好像是提供在線采集的,沒用過,它們的網站看不懂。但據說也還不錯。

個人覺得:如果你是采集純靜態頁面,且數據結構不是很復雜的那種,也懂點技術的,那就用火車頭吧。

原文:http://blog.sina.com.cn/s/blog_15b9403ba0102wosv.html

轉載于:https://www.cnblogs.com/wangqiao170/p/8919711.html

總結

以上是生活随笔為你收集整理的爬虫工具简单整理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。