日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pandas.read_html()读取网页表格类数据

發布時間:2024/9/30 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pandas.read_html()读取网页表格类数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標網站
http://www.tianqihoubao.com/lishi/wanzhou/month/201101.html

表格類數據格式樣子

大致網絡結構

<table class="..." id="..." ...>...<tbody><tr><td>...</td></tr><tr>...</tr><tr>...</tr><tr>...</tr><tr>...</tr>...<tr>...</tr><tr>...</tr> </tbody> </table> <table></table> 表示整體表格<tr>...</tr>表示一行<td>...</td>表示某一格的數據

代碼

從HTML文件讀取數據

如上所示,Pandas可以直接用DataFrame生成HTML表格,同樣可以讀取HTML文件。read_html()函數解析HTML頁面,尋找HTML表格。如果找到,就將其轉換為可以直接用于數據分析的DataFrame對象。

即使只有一個表格,read_html()函數也會返回一個DataFrame列表

import pandas as pddates=[201901,201902,201903,201904,201905,201906,201907,201908,201909,201910,201911,201912] print(dates)# 構造出日期序列 便于之后構造urlfor i in range(len(dates)):df = pd.read_html(f'http://www.tianqihoubao.com/lishi/wanzhou/month/{dates[i]}.html', encoding='gbk', header=0)[0]print(df)if i == 0:df.to_csv('2019年萬州天氣預報數據.csv', mode='a+', index=False) # mode='a+'追加寫入i += 1else:df.to_csv('2019年萬州天氣預報數據.csv', mode='a+', index=False, header=False) print('結束')

換一個網站
http://data.eastmoney.com/hsgt/top10.html

import pandas as pd df = pd.read_html(f'http://data.eastmoney.com/hsgt/top10.html', encoding='gbk')[0] print(df)

一些復雜網站無法讀取。
能讀取就讀,不能讀就嘗試爬蟲吧

總結

以上是生活随笔為你收集整理的pandas.read_html()读取网页表格类数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。