使用Excel功能抓取网页表格数据
? ? ? ?對(duì)于非工科專業(yè)的來(lái)說(shuō)(例如文學(xué)歷史)學(xué)習(xí)爬蟲似乎沒(méi)有多少必要,在日常工作之中根據(jù)工作學(xué)習(xí)就可以時(shí)間一長(zhǎng),就可以直接使用的非常熟練了。
本文主要介紹使用Excel來(lái)抓取網(wǎng)頁(yè)的上面的數(shù)據(jù)。
示例鏈接:https://ranking.promisingedu.com/world-times
?
這上面這個(gè)表格之中,如果我采用復(fù)制,網(wǎng)頁(yè)的表格然后粘貼在了Excel由于數(shù)據(jù)量過(guò)大,顯的十分麻煩,下面我們簡(jiǎn)單介紹一個(gè)神奇當(dāng)然就是Excel,注意是微軟的版本,目前wps目前還沒(méi)有當(dāng)前這個(gè)功能。
復(fù)制鏈接:?
打開Excel :
打開Excel之后,最好新建一個(gè)Excel文件,這樣的話比較方便,選擇數(shù)據(jù)選項(xiàng)卡,數(shù)據(jù)來(lái)源選擇【自網(wǎng)站】如果找不到的就選擇數(shù)據(jù)獲取源里面尋找。
抓取數(shù)據(jù):
粘貼鏈接到對(duì)話框點(diǎn)確定,連接選擇匿名即可
?
需要等待一段時(shí)間,在導(dǎo)航器之中選擇你需要的數(shù)據(jù)
?
點(diǎn)擊加載即可。
表格已經(jīng)生成了吧,下來(lái)只需要簡(jiǎn)單處理數(shù)據(jù)就可以了。
這種方式最適合于單頁(yè)面多表格的形式,其中的原理主要采用是的使用Excel內(nèi)置的游覽器組件去下載給定鏈接之中的HTML頁(yè)面,從頁(yè)面之中解析表的數(shù)據(jù),包括表頭的數(shù)據(jù)部分,簡(jiǎn)單易用。?
總結(jié)
以上是生活随笔為你收集整理的使用Excel功能抓取网页表格数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: file_put_contents()写
- 下一篇: es6--解构赋值