當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

pdf exe如何提取pdf文件_python应用：如何用python提取pdf文件中的文字

發(fā)布時(shí)間：2025/3/11 python 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 pdf exe如何提取pdf文件_python应用：如何用python提取pdf文件中的文字小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

從pdf中提取文字，相信很多人都干過(guò)這事，怎么在python中實(shí)現(xiàn)呢，今天帶大家看看。

第一步導(dǎo)入庫(kù)

import PyPDF2

第二步導(dǎo)入pdf文件

pdf_file =open('dataset/laban.1027.pdf', 'rb')

第三步讀取pdf并檢查加密情況

read_pdf = PyPDF2.PdfFileReader(pdf_file)read_pdf.getIsEncrypted()read_pdf.numPages

在上面的代碼中我首先建立了一個(gè)pdf閱讀器read_pdf，然后通過(guò).getIsEncrypted方法檢查這個(gè)pdf的加密情況。然后我們?cè)倏戳丝次覀冞@個(gè)pdf到底有幾頁(yè)，結(jié)果如下：

我們得到的結(jié)果是Flase，頁(yè)碼數(shù)為1，說(shuō)明我們的pdf是沒(méi)有加密的，要注意如果是加密的pdf我們?cè)谥蟮奶崛∥淖诌^(guò)程可能會(huì)報(bào)錯(cuò)。

第4步提取文字

提取文字的代碼如下：

page1 = read_pdf.getPage(0)page1.extractText()

解釋一下上面的代碼，首先還是要指定提取的pdf的頁(yè)碼，我這兒指定的是0也就是第一頁(yè)，運(yùn)行以上代碼會(huì)得到如下結(jié)果：

可以看到，文字雖然被提取出來(lái)了，但是文字并沒(méi)有自動(dòng)換行，相應(yīng)的換行符號(hào)都被“”替代了，此時(shí)我們需要做的就是將提取出來(lái)的原始文本正常換行，很簡(jiǎn)單直接用處理字符串的.split方法即可。代碼如下：

page1.extractText().split('')

運(yùn)行代碼得到結(jié)果：

可以看到，現(xiàn)在文字都進(jìn)行了正常換行，但是因?yàn)樵紁df的排版問(wèn)題，這個(gè)表現(xiàn)并不是很好，大家可以換一個(gè)pdf看一看效果。

結(jié)語(yǔ)

今天給大家介紹了用python從pdf文件中提取文字的方法，這個(gè)只是提取方法的一小部分演示，還有很多庫(kù)都可以進(jìn)行pdf文字的提取，之后再給大家寫(xiě)。感謝大家耐心看完。發(fā)表這些東西的主要目的就是督促自己，希望大家關(guān)注評(píng)論指出不足，一起進(jìn)步。內(nèi)容我都會(huì)寫(xiě)的很細(xì)，用到的數(shù)據(jù)集也會(huì)在原文中給出鏈接，你只要按照文章中的代碼自己也可以做出一樣的結(jié)果，一個(gè)目的就是零基礎(chǔ)也能懂，因?yàn)樽约壕褪鞘裁椿A(chǔ)沒(méi)有從零學(xué)Python的，加油。

(數(shù)據(jù)鏈接發(fā)不了，請(qǐng)關(guān)注后私信回復(fù)“數(shù)據(jù)鏈接”獲取本頭條號(hào)所有使用數(shù)據(jù)，包括本文的pdf文件)

總結(jié)

以上是生活随笔為你收集整理的pdf exe如何提取pdf文件_python应用：如何用python提取pdf文件中的文字的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： datatable怎么根据两列分组_谈谈
下一篇： flag的具体用法python_Pyth