推荐13个.Net开源的网络爬虫
1:.Net開源的跨平臺爬蟲框架 DotnetSpider?Star:430
DotnetSpider這是國人開源的一個跨平臺、高性能、輕量級的爬蟲軟件,采用 C# 開發(fā)。目前是.Net開源爬蟲最為優(yōu)秀的爬蟲之一。
請點擊此處輸入圖片描述
2:俄國牛人寫的開源爬蟲xNet?Star:117
這個一個俄國牛人寫的開源工具,為啥說他強悍了,因為他將所有Http協(xié)議的底層都實現(xiàn)了一遍,這有啥好處?只要你是寫爬蟲的,都會遇到一個讓人抓狂的問題,就是明明知道自己Http請求頭跟瀏覽器一模一樣了,為啥還會獲取不到自己想要的數(shù)據(jù)
3:開源的.net爬蟲Abot?Star:1050
Abot是一個開源的.net爬蟲,速度快,易于使用和擴展
4:C#仿火車頭的開源數(shù)據(jù)采集器V5_DataCollection?Star:25
V5 數(shù)據(jù)采集器是一款面向個人及專業(yè)用戶提供的一款專業(yè)的數(shù)據(jù)采集軟件,即適用于簡單化配置操作,也適應針對復雜數(shù)據(jù)采集的能力,所見即可采。 V5數(shù)據(jù)采集器獨有的代理輪詢采集機制,可有效的解決網(wǎng)站屏蔽問題,可用于互聯(lián)網(wǎng)數(shù)據(jù)動態(tài)監(jiān)控,絕對是您的首選
5:C#爬蟲引擎內(nèi)核版SmartSpider?Star:17
SmartSpider爬蟲引擎內(nèi)核版,全新的設計理念,真正的極簡版本。
6:.Net開源的超級爬蟲Hawk?Star:1039
HAWK是一種數(shù)據(jù)采集和清洗工具,依據(jù)GPL協(xié)議開源,能夠靈活,有效地采集來自網(wǎng)頁,數(shù)據(jù)庫,文件, 并通過可視化地拖拽, 快速地進行生成,過濾,轉換等操作。其功能最適合的領域,是爬蟲和數(shù)據(jù)清洗
7:基于C#.NET的簡單且高效的網(wǎng)站爬蟲?Star:58
Simple-Web-Crawler - 基于C#.NET的簡單網(wǎng)頁爬蟲,支持異步并發(fā)、切換代理、操作Cookie、Gzip加速。
8:網(wǎng)站數(shù)據(jù)采集軟件網(wǎng)絡礦工采集器(原soukey采摘)?
Soukey采摘網(wǎng)站數(shù)據(jù)采集軟件是一款基于.Net平臺的開源軟件,也是網(wǎng)站數(shù)據(jù)采集軟件類型中唯一一款開源軟件。盡管Soukey采摘開源,但并不會影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。Soukey采摘當前提供的主要功能如下: 1.??? 多任務多線程數(shù)據(jù)采集,支持POST方式;...
9:網(wǎng)站數(shù)據(jù)采集軟件NETSpider?Star:94
NETSpider網(wǎng)站數(shù)據(jù)采集軟件是一款基于.Net平臺的開源軟件。 軟件部分功能是基本Soukey軟件進行開發(fā)的.這個版本采用VS2010+.NET3.5進行開發(fā)的. NETSpider采摘當前提供的主要功能如下: 1. ? ?多任務多線程數(shù)據(jù)采集,支持POST方式(待定); 2. ? ?可...
10:網(wǎng)絡爬蟲程序NWebCrawler?
NWebCrawler是一款開源的C#網(wǎng)絡爬蟲程序
11:Web爬蟲工具NCrawler?
NCrawler 是一個Web Crawler 工具,它可以讓開發(fā)人員很輕松的發(fā)展出具有Web Crawler 能力的應用程式,并且具有可以延展的能力,讓開發(fā)人員可以擴充它的功能,以支援其他類型的資源(例如PDF /Word/Excel 等檔案或其他資料來源)。 NCrawler 使用多執(zhí)行緒...
12:多線程web爬蟲程序spidernet?
spidernet是一個以遞歸樹為模型的多線程web爬蟲程序, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載字節(jié)數(shù)限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲于sqlite數(shù)據(jù)文件. 源碼中TODO:標記描述了未完成功能, 希望提交你...
13:網(wǎng)頁爬蟲ScrapingSpider?Star:48
ScrapingSpider 是一個業(yè)余時間開發(fā)的,支持多線程,支持關鍵字過濾,支持正文內(nèi)容智能識別的爬蟲。 ?? 爬蟲的核心實現(xiàn)在ScrapingSpider.Core程序集中。爬蟲類為Spider類,爬蟲的爬取邏輯,與頁面處理邏輯通過事件分離,兩個關鍵事件為AddUrlEvent和Data...
14:爬蟲小新Sinawler?
國內(nèi)第一個針對微博數(shù)據(jù)的爬蟲程序!原名“新浪微博爬蟲”。 登錄后,可以指定用戶為起點,以該用戶的關注人、粉絲為線索,延人脈關系搜集用戶基本信息、微博數(shù)據(jù)、評論數(shù)據(jù)。 該應用獲取的數(shù)據(jù)可作為科研、與新浪微博相關的研發(fā)等的數(shù)據(jù)支持,但請勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SER...
總結
以上是生活随笔為你收集整理的推荐13个.Net开源的网络爬虫的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 燃着的烟蒂有可能引起什么阴燃(什么叫阴燃
- 下一篇: asp.net ajax控件工具集 Au