日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

jq获取表格里的checkbox_Python抓取网页表格(一)

發(fā)布時間:2024/9/27 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 jq获取表格里的checkbox_Python抓取网页表格(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Python有很多包可以抓取數(shù)據(jù),如selenium、requests、scrapy、pandas,每個包都有其適用性,個人認(rèn)為在抓取數(shù)據(jù)時,代碼簡潔性和數(shù)據(jù)獲取的準(zhǔn)確性是需要考慮的因素,時間快慢倒不用太在意,畢竟用python抓數(shù)據(jù)本來就大大節(jié)省了時間,用不同的方法可能也就是1秒和1分鐘的區(qū)別。日常中我們總存在抓取表格數(shù)據(jù)的需求,本文試圖用pandas最簡潔的代碼抓取表格數(shù)據(jù),代碼非常簡單,也很容易上手。

隨便選個網(wǎng)頁:

http://www.nafmii.org.cn/dcmfx/tzs/ppn/index.html

比如爬取下圖中定向工具的注冊批文(當(dāng)然wind里面也有數(shù)據(jù),本文只是為了展示如何爬取表格型數(shù)據(jù))

一、爬取當(dāng)頁

只需要兩句關(guān)鍵代碼就可以抓取出來,前兩句是導(dǎo)入相關(guān)模塊,第三句輸入網(wǎng)址,第四句用pandas讀取,由于該網(wǎng)頁有很多表格,會以list格式存在ppn這個變量里,點擊查看可以發(fā)行第十四張表格正是我們所需要的內(nèi)容。?

二、全部爬取

但是第一部分只抓取了第一頁,如果想要把所有頁都抓取出來,同樣非常簡單,只需編寫一個循環(huán)。點擊下一頁可以發(fā)現(xiàn)其網(wǎng)址會發(fā)生相應(yīng)改變:http://www.nafmii.org.cn/dcmfx/tzs/ppn/index_2.html

頁碼會體現(xiàn)在index后面的數(shù)字,因此可以將url改為變量的組合,具體看第五句。第一和二句依然是導(dǎo)入相關(guān)模塊,第三句是生成一個空矩陣,用于存儲抓取完的結(jié)果,第四句至第八句是一個簡單的循環(huán),result變量就是每頁抓取的結(jié)果,然后不斷的添加到output里。最后output就是我們想要的結(jié)果。

總結(jié)

以上是生活随笔為你收集整理的jq获取表格里的checkbox_Python抓取网页表格(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。