當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pandas.read_html()读取网页表格类数据

發布時間：2024/9/30 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 pandas.read_html()读取网页表格类数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標網站
http://www.tianqihoubao.com/lishi/wanzhou/month/201101.html

表格類數據格式樣子

大致網絡結構

<table class="..." id="..." ...>...<tbody><tr><td>...</td></tr><tr>...</tr><tr>...</tr><tr>...</tr><tr>...</tr>...<tr>...</tr><tr>...</tr> </tbody> </table> <table></table> 表示整體表格<tr>...</tr>表示一行<td>...</td>表示某一格的數據

代碼

從HTML文件讀取數據

如上所示，Pandas可以直接用DataFrame生成HTML表格，同樣可以讀取HTML文件。read_html()函數解析HTML頁面，尋找HTML表格。如果找到，就將其轉換為可以直接用于數據分析的DataFrame對象。

即使只有一個表格，read_html()函數也會返回一個DataFrame列表

import pandas as pddates=[201901,201902,201903,201904,201905,201906,201907,201908,201909,201910,201911,201912] print(dates)# 構造出日期序列便于之后構造urlfor i in range(len(dates)):df = pd.read_html(f'http://www.tianqihoubao.com/lishi/wanzhou/month/{dates[i]}.html', encoding='gbk', header=0)[0]print(df)if i == 0:df.to_csv('2019年萬州天氣預報數據.csv', mode='a+', index=False) # mode='a+'追加寫入i += 1else:df.to_csv('2019年萬州天氣預報數據.csv', mode='a+', index=False, header=False) print('結束')

換一個網站
http://data.eastmoney.com/hsgt/top10.html

import pandas as pd df = pd.read_html(f'http://data.eastmoney.com/hsgt/top10.html', encoding='gbk')[0] print(df)

一些復雜網站無法讀取。
能讀取就讀，不能讀就嘗試爬蟲吧

總結

以上是生活随笔為你收集整理的pandas.read_html()读取网页表格类数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。