日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据

發布時間:2023/11/27 生活经验 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

需求:獲取指定關鍵字(母嬰)下的公司信息(公司名稱、地址、法人、聯系方式)

步驟:

一、下載webscraper插件。

通過Chrome瀏覽器的擴展程序發現發不開Chrome商店,此處提供一個百度云盤鏈接(https://pan.baidu.com/s/1E0DCxzGvz4qkaLin_i8L9w),將文件下載到本地

二、安裝webscraper插件到Chrome瀏覽器。

打開Chrome瀏覽器的擴展程序頁面(chrome://extensions/),將本地的插件文件拖動到瀏覽器的插件頁面,按照提示操作便可,出現下圖說明成功:

插件安裝成功

三、啟動webscraper插件

打開Chrome瀏覽器,按下F12(有的是Fn+F12),在導航中單擊web scraper

四、webscrapy工作原理

參考:https://www.yuanrenxue.com/tricks/web-scraper-principle-1.html

結構

運行邏輯

五、開始抓取天眼通數據

1.最快的方式就是導入現成的sitemap文件,導入到webscraper中即可,此處我提供一個已經寫好的(結構還是很清晰的),讀者在使用時可按照自己的需要修改關鍵字和爬取的頁數:

{"selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"root","selector":"div.search-result-single","delay":"2000"},{"parentSelectors":["root"],"type":"SelectorLink","multiple":false,"id":"jump","selector":"a.name","delay":"800"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"company","selector":"h1.name","regex":"","delay":"300"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"phone","selector":"div.in-block:nth-of-type(1) span:nth-of-type(2)","regex":"","delay":"200"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"address","selector":"table.table.-striped-col tr:nth-of-type(9) td:nth-of-type(2)","regex":"","delay":"400"},{"parentSelectors":["root"],"type":"SelectorText","multiple":false,"id":"Contacts","selector":"a.legalPersonName","regex":"","delay":"400"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"scale","selector":"table.table.-striped-col tr:nth-of-type(7) td:nthf-type(4)","regex":"","delay":"200"}],"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=銀行&base=hefei","_id":"yinhang"}

2.自己按照實際需要按照下面的基本步驟來創建

步驟1 創建sitemap

image.png

image.png

image.png

image.png

image.png

以上只是最基本的操作,復雜的功能我目前用到了3個地方,在這里做下補充

1.針對分頁數據時,可以在訪問的主入口中控制,比如我提供的現成sitemap中"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=銀行&base=hefei",這里面p[1-5]標識的是從第1到第5,間隔默認是1,那么webscraper就會依次訪問1-5數字。

2.涉及跳轉新頁面時,需要建立link,跳轉的新頁面不能另外打開,這里可以直接拷貝跳轉頁面的地址在當前頁面打開,這樣就可以繼續在當前打開的webscraper中編寫了。

3.Delay時間建議都寫,避免觸發反爬蟲

4.webscraper使用的元素選擇器是css selector。

總結

以上是生活随笔為你收集整理的webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。