日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

再见PDF提取收费!我用100行Python代码搞定!去你的收费!

發布時間:2024/3/13 python 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 再见PDF提取收费!我用100行Python代码搞定!去你的收费! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大家在日常的工作和學習過程中,都少不了與PDF文件打交道,很多的小伙伴都面臨著將PDF文件中的文字、圖片和表格數據提取出來的問題。能夠對PDF文件中的文字、表格等數據進行編輯,網上現存的PDF提取的軟件都需要付費操作!

小編今天就利用百行的python程序,來提取PDF文件中的文字、圖片和表格數據。一起來看看吧。

01.程序執行效果

python庫版本介紹

本次程序涉及到多個python第三方庫與python3的內置庫,而且不同的python庫版本對于程序的兼容性不一致,因此我們首先來介紹一下使用到的python第三方庫版本。

  • PySimpleGUI 4.38.0

  • pdfminer3k 1.3.4

  • pdfplumber 0.5.27

  • fitz 0.0.1.dev2

  • pandas 1.1.3

02.程序講解

看過視頻之后,接下來就進行程序的展示,程序的展示主要分為以下的四個方面,分別是:

  • PDF提取文字

  • PDF提取圖片

  • PDF提取表格

  • 交互界面的制作

03.PDF提取文字

PDF中文字是只允許我們進行只讀,但是無法進行更改,所以我們要做的就是提取PDF中的文字信息,然后將提取到的文字寫入到word文件當中,讓我們能夠進行后續的改寫。對于文字的提取,我們利用的是pdfminer函數庫,其程序如下圖所示:

程序首先創建了PDFParser對象來進行PDF文檔的分析,PDFDocument對象來將資源對象處理成我們需要的格式,PDFResourceManager對象用來保存共享數據內容;

而PDFPageInterpreter則是用來處理頁面的內容。程序中通過for循環來針對PDF文件中的每一頁內容進行處理,對于每一頁的內容,通過layout來存儲頁面解析出來的各種對象;

包括文本,圖片等信息。但是小編發現,對于圖片的提取,pdfminer的效果很不好,所以后面針對于圖片的提取;

小編采用的fitz庫進行單獨的處理,取得很好的圖片提取效果。這里,我們先來看一下對于文本的處理結果。

我們的pdf是一個兩頁的pdf文檔,我們只讓程序去提取第一頁的文本,從上圖可以看出,程序完整的提取出第一頁的文本,沒有任何的錯誤。

04.PDF提取圖片

對于文字的提取處理完畢后,接下來我們就來看一下如何提取pdf中的圖片,并將其保存到本地。對于圖片的提取,程序如下圖所示:

上述的程序中,利用fitz庫來提取PDF文檔中的對象,然后通過字符串匹配來判斷對象是不是圖片類型,如果不是的話,我們直接進行跳過即可。如果判斷對象是圖片類型的話,我們邊可以通過創建PixMap對象來提取圖片,并保存到我們指定的路徑下即可。結果如下圖所示:

上圖可以看出,程序正確的將圖片進行了提取,從而達到了我們的圖片提取的目的,可以在短短的幾秒內完成pdf文檔的所有圖片的提取。

05.PDF提取表格

對于PDF中表格的提取,利用的是pdfplumber庫,程序如下圖所示:

程序中,通過pdfplumber庫讀取PDF文件,針對于文件中的每一頁,提取表格數據,然后通過pandas將表格數據保存到根目錄下的tables文件夾中,結果如下圖所示。

通過結果的展示,可以看出,對于PDF中的表格數據,程序能夠做到較為準確的提取。

06.交互界面的制作

交互界面的制作,程序利用的是PySimpleGUI庫進行處理,其部分程序如下圖所示。

PySimpleGUI庫集合了tkinter,wxpython、PyQt等GUI庫的優勢,其最重要的特點是用簡單少量的代碼就可以制作出精美的界面。程序執行的可視化界面如下圖所示。

07.軟件打包

為了方便大家的使用,小編將程序打包為exe文件,需要注意的是,為了減少大家對于exe文件執行時的報錯,需要在win10(64bit)的環境下進行運行。大家可以下載exe文件,直接進行pdf文件內容的提取。

如何獲取源碼:

①3000多本Python電子書有 ②Python開發環境安裝教程有 ③Python400集自學視頻有 ④軟件開發常用詞匯有 ⑤Python學習路線圖有 ⑥項目源碼案例分享有 如果你用得到的話可以直接拿走,在我的QQ技術交流群里群號:754370353(純技術交流和資源共享,廣告勿入)以自助拿走?點擊這里 領取

總結

以上是生活随笔為你收集整理的再见PDF提取收费!我用100行Python代码搞定!去你的收费!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。