當前位置：首頁 > 编程语言 > python >内容正文

python

pdf怎么查看坐标 python_如何从PDF文件中提取文本和文本坐标？

發布時間：2024/4/14 python 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 pdf怎么查看坐标 python_如何从PDF文件中提取文本和文本坐标？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

下面是一個復制粘貼就緒的示例，它列出了PDF中每個文本塊的左上角，我認為對于任何不包含包含包含文本的“Form XObjects”的PDF，它都應該適用：from pdfminer.layout import LAParams, LTTextBox

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

fp = open('yourpdf.pdf', 'rb')

rsrcmgr = PDFResourceManager()

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

interpreter = PDFPageInterpreter(rsrcmgr, device)

pages = PDFPage.get_pages(fp)

for page in pages:

print('Processing next page...')

interpreter.process_page(page)

layout = device.get_result()

for lobj in layout:

if isinstance(lobj, LTTextBox):

x, y, text = lobj.bbox[0], lobj.bbox[3], lobj.get_text()

print('At %r is text: %s' % ((x, y), text))我使用PDFPage.get_pages()，這是創建文檔、檢查文檔并將其傳遞給PDFPage.create_pages()的簡寫

我不需要處理LTFigures，因為PDFMiner目前無論如何都無法干凈地處理它們內部的文本。

LAParams允許您設置一些參數，這些參數控制PDFMiner如何將PDF中的單個字符神奇地分組到行和文本框中。如果你驚訝于這樣的分組是一件需要發生的事情，那么在pdf2txt docs中可以證明這一點：In an actual PDF file, text portions might be split into several chunks in the middle of its running, depending on the authoring software. Therefore, text extraction needs to splice text chunks.

LAParams的參數與大多數PDFMiner一樣，沒有文檔記錄，但是您可以看到它們in the source code或者在Python shell中調用help(LAParams)。參數的一些的含義在https://pdfminer-docs.readthedocs.io/pdfminer_index.html#pdf2txt-py給出，因為它們也可以作為參數在命令行傳遞給pdf2text。

上面的layout對象是一個LTPage，它是一個“布局對象”的iterable。每個布局對象都可以是以下類型之一。。。LTTextBox

LTFigure

LTImage

LTLine

LTRect

。。。或者他們的子類。(特別是，您的文本框可能都是LTTextBoxHorizontals。)

文檔中的圖片顯示了LTPage結構的更多細節：

上面的每種類型都有一個.bbox屬性，該屬性包含一個(x0，y0，x1，y1)元組，分別包含對象的左、下、右和頂部的坐標。y坐標是從頁面的底部開始的距離。如果您更方便使用從上到下的y軸，則可以從頁面的.mediabox高度中減去它們：x0, y0, x1, y1 = some_lobj.bbox

y0 = page.mediabox[3] - y1

y1 = page.mediabox[3] - y0

除了bbox，LTTextBoxes還有一個.get_text()方法，如上所示，該方法將文本內容作為字符串返回。請注意，每個LTTextBox都是LTChars(PDF顯式繪制的字符，帶有bbox)和LTAnnos(PDFMiner根據相隔很遠的字符向文本框內容的字符串表示添加的額外空格；這些字符沒有bbox)的集合。

這個答案開頭的代碼示例結合了這兩個屬性來顯示每個文本塊的坐標。

最后，值得注意的是，與上面提到的其他堆棧溢出答案不同，我不需要遞歸到LTFigures中，PDFMiner似乎無法將該文本分組為LTTextBoxes(您可以在https://stackoverflow.com/a/27104504/1709587中的示例PDF上進行嘗試)，而是生成一個直接包含LTChar對象的LTFigure。原則上，您可以找出如何將它們組合成一個字符串，但PDFMiner(截至20181108版本)不能為您這樣做。

不過，希望您需要解析的pdf不使用包含文本的Form XObjects，所以這個警告不適用于您。

總結

以上是生活随笔為你收集整理的pdf怎么查看坐标 python_如何从PDF文件中提取文本和文本坐标？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python的division函数_Py
下一篇： websocket python爬虫_p