日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

编写一个爬虫类库——(一)想法

發布時間:2024/4/17 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 编写一个爬虫类库——(一)想法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

有的時候,我會寫一些爬蟲程序來自動獲取一些信息,之前一段時間用過Puppeteer來驅動Chrome獲取信息,我之前也寫過一系列文章來介紹它。Puppeteer是Google官方出品,本身質量非常好高,提供的功能也非常強大,但它本身并不是針對爬蟲程序定制的,用起來存在如下不便之處:

  • 提供的API過多,想找到需要的API比較費時間。
  • 提供的API比較底層,要實現想要的功能往往需要多個接口組合
  • 有的功能沒有提供, 需要通過一些私有接口或改源碼的方式來實現
  • 日志,輸入輸出,任務調度,重試策略等都需要額外的庫才能實現。
  • 加上我也不是經常有些蜘蛛程序的需求,只是偶爾心血來潮的時候寫一下玩玩。導致每次使用都要在Puppeteer的API列表和我之前的博客文章中查一遍才能進行功能的開發。

    另外,具體開發蜘蛛程序的時候,針對站點的數據解析比較費時費力,需要提供一個方便強大的調試工具。

    基于以上原因,我變有了一個自己寫一個依托于Chrome,專門針對蜘蛛程序的類庫的想法,主要目標如下:

  • 提供簡單的庫,每次使用的時候基本上能一目了然
  • 提供常用的庫,常見的功能拿來就能使用
  • 提供日志,輸入輸出,任務調度等常見的功能庫集成
  • 提供直觀好用的調試工具,方便蜘蛛程序的開發
  • 該工具我打算使用.net core來寫,有宇宙第一IDE加持的話,開發和后期使用時非常簡單的。我已經實現了一個小的原型了,雖然目前功能還不完善,但已經可以用來來實現一些簡單的數據爬取的。

    由于最近的工作和家里的事情都比較多,后面的開發進度估計就要慢不少了,我后續也會寫一些文章介紹開發過程中的心得的。

    轉載于:https://www.cnblogs.com/TianFang/p/11142993.html

    總結

    以上是生活随笔為你收集整理的编写一个爬虫类库——(一)想法的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。