日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

golang幽灵蛛(pholcus)(一)

發布時間:2023/12/29 综合教程 42 生活家
生活随笔 收集整理的這篇文章主要介紹了 golang幽灵蛛(pholcus)(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近開始重拾golang語言的原因

golang語言c語言的運行速度,Python的開發效率。

tensorflow支持golang了,預估國內會有一些人開發深度學習軟件了,會火一把,估計Google親爹應該不會拋棄它了。

gota快要支持日期時間型了,可以實現數據清洗了。

還有一些數據挖掘的包,我還沒用過,但是慢慢的會穩定。

幽靈蛛(pholcus)一套穩定的爬蟲架構,支持分布式。

還差可視化包了,有誰知道好的包求推薦????????????????????????

下面步入正題,幽靈蛛入門:

怎么運行,我給大家截圖一下我自己的文件結構吧,讓我詳細說 我也說不清楚:

golang項目中最主要的就是src文件夾了,這個文件夾是自動創建的,src上gopath里的。其中pholcus文件夾我是直接從github上下載的。

github.com文件夾截圖如下:

頁面解析文件都放在pholcus_lib下,如果你想自己寫爬蟲,也是維護到這個文件夾下。

main.go文件是從example_main.go改的。編譯并運行mai.go文件。瀏覽器自動彈出一下界面,按照截圖進行設置,點擊開啟:

進入爬蟲任務頁面,按紅框設置,分批輸出限制100是為了可以很快的看到輸出是啥樣子的。

運行log:

可以暫定和停止。

文本輸出文件在文件夾E:projectgoprojectgolearnsrcpholcuspholcus_pkg ext_out中,如果停止后想再次進行啟動進行爬取 需要先刪除history:E:projectgoprojectgolearnsrcpholcuspholcus_pkghistory (也可以通過設置“集成并保存成功記錄為False”)

在頁面解析文件的go文件中,可以直接進行print測試,如下圖:當然這種測試太麻煩了,還要啟動瀏覽器啥的,但是目前還沒找到其他的測試方式 先這么著 ,我再去探索一下,如果哪位朋友知道,請賜教????????????????????

下面我們來看看輸出的結果形式:

第5行的內容是空,這證明頁面解析沒有解析出“內容”值,可能是頁面改版了,以前的元素不存在了,

csv文件,第一行是列名,對應people.go文件中的以下代碼

當前鏈接,上級鏈接,下載時間 應該是系統自動添加的。

這是目前學習到的只是,雜亂無章。

總結

以上是生活随笔為你收集整理的golang幽灵蛛(pholcus)(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。