日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

前嗅ForeSpider教程:采集新浪新闻

發布時間:2023/12/20 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 前嗅ForeSpider教程:采集新浪新闻 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ?最近后臺有很多童鞋問怎么采集新聞,今天小編以采集新浪新聞為例,來為大家進行演示,同樣適用于其他新聞網站的采集,具體操作如下:

?

第一步:新建任務

①點擊左上角“加號”新建任務,如圖1:

?

②在彈窗里填寫采集地址,任務名稱,如圖2:

③點擊下一步,選擇進行數據抽取還是鏈接抽取,本次采集當前列表頁新聞的正文數據,正文數據是通過點擊列表鏈接進入的,所以本次需要抽取列表鏈接,所以點擊抽取鏈接,如圖3:

?

第二步:通過定位過濾、地址過濾,得到所需鏈接

①按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域,點擊“確認選區”按鈕,如圖4:

②點擊采集預覽,在采集預覽中有于目標鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標鏈接都包含“sina.com.cn/+字符串”。使用過濾串“\c”,右擊復制鏈接,如圖5所示。過濾串規則說明:\c??表示一串(個)小寫字母

③勾選地址過濾,過濾規則選擇包含,填入“sina.com.cn/\c”,得到列表鏈接,如圖6所示。

④點擊采集預覽確認鏈接是否過濾完全,如圖7:

?

第三步:關聯模板

在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。根據網頁跳轉規律,將“鏈接列表”關聯模板二“鏈接列表:02”,此處由于我們開始就選擇了創建列表鏈接,所以軟件自動關聯好了模板二。如果配置的時候發現關聯有問題,可以自己進行更改,如圖8:

?

第四步:填寫模板二示例地址并新建數據抽取

①?模板一過濾得到的任意一條鏈接,作為模板二的示例地址。如https://news.sina.com.cn/c/zj/2018-12-25/doc-ihqhqcis0255892.shtml, 見圖9:

②新建數據抽取

方法一:通過點擊“下一步”后勾選抽取數據,再次點擊“下一步”得到數據抽取。

方法二:直接點擊模板二,點擊上面“新建數據抽取”按鈕,得到數據抽取,重命名為新浪新聞,如圖10:

?

第五步:創建/選擇表單

在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找并關聯數據表單。此處使用的是之前建過的新浪網的表單。

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單,如圖11所示:

方法三:點擊“采集配置”-“數據建表”,點擊采“采集表單”后面的如圖12:

?

第六步:配置表單

根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、網頁標題、網頁地址、網頁創建時間、內容、發布來源6個字段,表單如圖13:

?

第七步:字段取值

取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。點擊“確認選區”按鈕,確認操作。text、from_addr字段,如圖14:

?

第八步:模板預覽

①鼠標右鍵點擊“數據抽取”,然后點擊“模板預覽”,如圖15:

?

②預覽結果如圖16:

?

第九步:采集預覽

①點擊右上角采集預覽,如圖17:

②雙擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據,如圖18:

總結

以上是生活随笔為你收集整理的前嗅ForeSpider教程:采集新浪新闻的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。