日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python中pdfplumber解析pdf_Python中pdfplumber如何提取pdf中的表格数据

發布時間:2023/12/31 python 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python中pdfplumber解析pdf_Python中pdfplumber如何提取pdf中的表格数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python中pdfplumber如何提取pdf中的表格數據

發布時間:2020-10-29 09:19:00

來源:億速云

閱讀:66

作者:小新

小編給大家分享一下Python中pdfplumber如何提取pdf中的表格數據,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去學習方法吧!

作為一個強大的pdf文件解析工具,pdfplumber庫可迅速將pdf文檔轉換為易于處理的txt文檔,并輸出pdf文檔的字符、頁面、頁碼等信息,還可進行頁面可視化操作。使用pdfplumber庫前需先安裝,即在cmd命令行中輸入:pip?install?pdfplumber

pdfplumber庫提供了兩種pdf表格提取函數,分別為.extract_tables( )及.extract_table( ),兩種函數提取結果存在差異。為進行演示,我們網站上下載了一份短期融資券主體信用評級報告,為pdf格式。任意選取某一表格,其界面如下:

(1).extract_tables( )

可輸出頁面中所有表格,并返回一個嵌套列表,其結構層次為table→row→cell。此時,頁面上的整個表格被放入一個大列表中,原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素,得到的便是由原表格同一行元素構成的列表。例如,我們執行如下程序:import?pdfplumber

with?pdfplumber.open(r'F:python財務報表主體評級報告.pdf')??as?pdf:

page?=?pdf.pages[45]????#設置操作頁面

for?row?inpage.extract_tables()?:

print(row)

print(row[0])???#打印外層列表第一個元素

輸出結果:

(2).extract_table( )

返回多個獨立列表,其結構層次為row→cell。若頁面中存在多個行數相同的表格,則默認輸出頂部表格;否則,僅輸出行數最多的一個表格。此時,表格的每一行都作為一個單獨的列表,列表中每個元素即為原表格的各個單元格內容。若需輸出某個元素,得到的便是具體的數值或字符串。如下:with?pdfplumber.open(r'F:python財務報表主體評級報告.pdf')?as?pdf:

page?=?pdf.pages[45]

for?row?in?page.extract_table()?:

print(row)

print(row[0])??????#打印每個列表對應的第一個元素

輸出結果:

感謝你能夠認真閱讀完這篇文章,希望小編分享Python中pdfplumber如何提取pdf中的表格數據內容對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,遇到問題就找億速云,詳細的解決方法等著你來學習!

總結

以上是生活随笔為你收集整理的python中pdfplumber解析pdf_Python中pdfplumber如何提取pdf中的表格数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。