日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」...

發布時間:2025/3/21 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

以百度搜索關鍵詞(http://www.baidu.com)為例:

一. 網站結構

  • 網站截圖說明
  • 使用批量關鍵詞,從百度檢索列表依次進入檢索結果頁,采集結果頁里的正文數據。

    檢索列表頁

    檢索結果頁

    2. 采集結果截圖

    檢索列表鏈接

    檢索結果數據

    二. 配置模板

  • 新建任務
  • 新建任務

    點擊【下一步】,需要采集全部檢索結果,所以此處需要勾選【鏈接列表】和【普通翻頁】,如圖:

    新建采集任務

    2. 配置關鍵詞

    配置關鍵詞

    ① 內置瀏覽器顯示搜索頁面后,按照提示:ctrl+左鍵單擊搜索框,點擊右下角【完成】。點擊右上角【保存】,保存任務配置。

    保存關鍵詞配置

    ② 關鍵詞列表處,填寫關鍵詞,并點擊保存。

    填寫關鍵詞

    3. 采集預覽

    看關鍵詞檢索的鏈接是否能夠出來,如果沒有出來,應該使用腳本采集;如果可以出來,則繼續操作。

    4. 過濾鏈接列表

    ①用定位過濾鏈接,過濾關鍵詞檢索出的列表鏈接。

    定位過濾列表鏈接

    ② 采集預覽,看是否過濾成功。

    采集預覽出現鏈接均為網頁中關鍵詞檢索列表中的鏈接,過濾成功。

    采集預覽

    5. 過濾翻頁鏈接

    ①用定位過濾鏈接,過濾翻頁鏈接。

    定位過濾翻頁鏈接

    ② 采集預覽,看是否過濾成功

    采集預覽出現鏈接均為翻頁的鏈接,過濾成功。

    采集預覽

    6.關聯模板

    通過關聯模板,可以設置該鏈接將要跳轉的下一層級頁面。通過模板之間的關聯,可以將網站各層級頁面關聯起來,在軟件中形成與瀏覽器相同的跳轉結構,從而完整地采集數據。

    關聯模板

    如果沒有創建模板02,可以自行創建模板。

    新建模板

    7. 填寫示例地址

    模板二是為了抽取正文數據,故勾選【抽取數據】,并填寫示例數據。

    ①選取任意一條檢索結果的網址,也就是模板一過濾得到的任意一條鏈接,作為模板二的示例地址。

    填寫示例地址

    ②點擊【下一步】,自動生成數據抽取。

    如果沒有自動生成,則新建數據抽取。

    新建數據抽取

    8. 創建/選擇表單

    表單創建后可以重復選擇使用,如果已有建好的表單,選擇對應數據表單即可。如果沒有,點擊創建表單。

    創建表單

    9.配置表單

    根據所需內容,配置表單字段,此處配置了包括網頁標題、網頁地址、全部文本三個字段。=>(字段各屬性介紹)

    方式一:快速建表。(點擊【創建表單】出現彈窗。)

    配置表單

    方式二:自由建表。(在【數據建表】界面。)

    字段取值

    10.字段取值

    ①f_id:主鍵字段,自動取值。=>(能夠自動取值的字段有哪些?)

    ②web_title:通過字段定位取值,按ctrl+單擊標題,確認選取。

    字段取值

    ③web_link:自動獲取url地址。

    web_link

    11. 關聯數據表

    先選擇對應表單,然后再創建關聯數據表,如圖所示。

    創建關聯數據表

    定義表名稱

    勾選數據表

    12. 模板預覽

    通過預覽,可以了解配置是否能夠正確地采集到所需數據。

    方式一:點擊【采集預覽】按鈕,可以從入口頁逐層預覽各個模板的數據。

    點擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據。

    方式二:右鍵后選擇【模板預覽】,可以單獨預覽某個模板的數據。

    模板預覽

    預覽結果

    三.數據采集

    1. 運行設置

    運行設置處可以設置采集速度、采集策略、任務裝載等。

    運行設置

    1. 選擇采集任務

    在【任務列表】中勾選需要采集的任務,可勾選多個任務,同時采集。

    選擇采集任務

    3. 開始采集

    點擊【開始采集】,系統開始進行采集。剩余任務數為0時,系統自動停止采集。用戶也可以自己暫停任務或停止任務(停止任務會釋放任務,再次啟動時重新裝載任務)。

    開始采集

    4. 數據瀏覽

    采集一段時間以后,點擊【數據瀏覽】,在數據列表中選中對應的數據表,即可瀏覽采集到的數據,點擊【刷新】按鈕可以同步顯示數據。

    數據瀏覽

    5. 導出數據

    點擊【導出】按鈕,選擇導出文件格式后保存。

    導出數據

    導出數據

    《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

    總結

    以上是生活随笔為你收集整理的webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」...的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。