教你用爬虫批量采集淘宝商品评论数据
本文介紹如何使用后羿采集器的 流程圖模式 ,免費采集淘寶商品評論的信息數據。
采集字段:
用戶、圖片1、圖片2 、圖片3、 評論內容、 顏色及尺碼、 最新評論時間
功能點目錄:
什么是行為組件
循環組件的功能點介紹
如何使用提取數據組件
如何實現翻頁功能
采集結果預覽:
下面我們來詳細介紹一下如何使用流程圖模式,采集淘寶商品的評論,我們以淘寶店鋪毛菇小象家的毛呢短褲的評論為例,具體步驟如下:
步驟一:新建采集任務
1、復制 淘寶商品評論 的網頁地址(需要搜索結果頁的網址,而不是首頁的網址)
點此 了解關于如何正確地輸入網址。
2、新建流程圖模式采集任務
您可以在軟件上直接新建采集任務,也可以通過導入規則來創建任務。
點此 了解如何導入和導出采集規則。
步驟二:配置采集規則
1、點擊評論
輸入網址后,我們進入淘寶寶貝的詳情頁,此時頁面上出現的登錄界面我們可以點擊關閉,在詳情頁上可以看到評論數但是看不到具體的評論內容,我們需要點擊評論,然后在左上角跳轉出來的提示框中選擇“點擊該元素”。
2、設置提取字段數據
跳轉到評論界面后,我們點擊網頁上的評論字段,在左上角的操作提示框內選擇提取全部元素。
提取出評論列表頁上的字段之后,我們可以右擊字段進行相關設置,包括修改字段名稱、增減字段、處理數據等。
點此 了解更多關于提取字段組件的內容。
我們需要采集評論內容、用戶名稱、評論發布時間及評論圖片等信息,字段設置效果如下:
3、設置下一頁
我們采集出了單頁的評論數據,現在需要采集下一頁的數據,我們點擊頁面上的“下一頁”按鈕,在左上角出現的操作提示框內選擇“循環點擊下一頁”。
點此 了解更多關于翻頁的內容。
步驟三:設置并啟動采集任務
1、設置采集任務
完成了采集數據添加,我們可以開始啟動采集任務了。點擊開始采集之后跳出任務欄,任務欄界面上有“更多設置”的按鈕,我們可以點擊進行設置,也可以按照系統默認的設置。
點擊“更多設置”按鈕,在彈出的運行設置頁面中我們可以進行運行設置和防屏蔽設置,系統默認設置“2”秒請求等待時間,防屏蔽設置就按照系統默認設置,然后點擊保存。
2、啟動采集任務
點擊“保存并啟動”按鈕,可在彈出的頁面中進行一些高級設置,包括定時啟動、自動入庫和下載圖片,本次示例中未使用到這些功能,直接點擊“啟動”運行爬蟲工具。
點此 深入了解什么是定時采集。
點此 深入了解什么是自動入庫。
點此 深入了解如何下載圖片。
【溫馨提示】 免費版本可以使用非周期性定時采集功能,下載圖片功能是免費的。個人專業版及以上版本可以使用高級定時功能和自動入庫功能。
3、運行任務提取數據
任務啟動之后便開始自動采集數據,我們從界面上可以直觀的看到程序運行過程和采集結果,采集結束之后會有提醒。
步驟四:導出并查看數據
數據采集完成后,我們可以查看和導出數據,后羿采集器支持多種導出方式(手動導出到本地、手動導出到數據庫、自動發布到數據庫、自動發布到網站)和導出文件的格式(EXCEL、CSV、HTML和TXT),我們選擇自己需要方式和文件類型,點擊“確認導出”。
點此 深入了解如何查看和清空采集數據。
點此 深入了解如何導出采集結果。
【溫馨提示】: 所有手動導出功能都是免費的。個人專業版及以上版本可以使用發布到網站功能。
?
再為您推薦幾個關于電商的采集教程:
如何免費采集蘑菇街商品銷售數據
如何免費采集亞馬遜商品信息數據
如何免費采集當當網商品信息數據
來自 “ ITPUB博客 ” ,鏈接:http://blog.itpub.net/31563416/viewspace-2284895/,如需轉載,請注明出處,否則將追究法律責任。
轉載于:http://blog.itpub.net/31563416/viewspace-2284895/
總結
以上是生活随笔為你收集整理的教你用爬虫批量采集淘宝商品评论数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [react] React的触摸事件有哪
- 下一篇: IDEA svn 菜单不见了,解决方法