pdf怎么查看坐标 python_如何从PDF文件中提取文本和文本坐标?
下面是一個復制粘貼就緒的示例,它列出了PDF中每個文本塊的左上角,我認為對于任何不包含包含包含文本的“Form XObjects”的PDF,它都應該適用:from pdfminer.layout import LAParams, LTTextBox
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
fp = open('yourpdf.pdf', 'rb')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
pages = PDFPage.get_pages(fp)
for page in pages:
print('Processing next page...')
interpreter.process_page(page)
layout = device.get_result()
for lobj in layout:
if isinstance(lobj, LTTextBox):
x, y, text = lobj.bbox[0], lobj.bbox[3], lobj.get_text()
print('At %r is text: %s' % ((x, y), text))我使用PDFPage.get_pages(),這是創建文檔、檢查文檔并將其傳遞給PDFPage.create_pages()的簡寫
我不需要處理LTFigures,因為PDFMiner目前無論如何都無法干凈地處理它們內部的文本。
LAParams允許您設置一些參數,這些參數控制PDFMiner如何將PDF中的單個字符神奇地分組到行和文本框中。如果你驚訝于這樣的分組是一件需要發生的事情,那么在pdf2txt docs中可以證明這一點:In an actual PDF file, text portions might be split into several chunks in the middle of its running, depending on the authoring software. Therefore, text extraction needs to splice text chunks.
LAParams的參數與大多數PDFMiner一樣,沒有文檔記錄,但是您可以看到它們in the source code或者在Python shell中調用help(LAParams)。參數的一些的含義在https://pdfminer-docs.readthedocs.io/pdfminer_index.html#pdf2txt-py給出,因為它們也可以作為參數在命令行傳遞給pdf2text。
上面的layout對象是一個LTPage,它是一個“布局對象”的iterable。每個布局對象都可以是以下類型之一。。。LTTextBox
LTFigure
LTImage
LTLine
LTRect
。。。或者他們的子類。(特別是,您的文本框可能都是LTTextBoxHorizontals。)
文檔中的圖片顯示了LTPage結構的更多細節:
上面的每種類型都有一個.bbox屬性,該屬性包含一個(x0,y0,x1,y1)元組,分別包含對象的左、下、右和頂部的坐標。y坐標是從頁面的底部開始的距離。如果您更方便使用從上到下的y軸,則可以從頁面的.mediabox高度中減去它們:x0, y0, x1, y1 = some_lobj.bbox
y0 = page.mediabox[3] - y1
y1 = page.mediabox[3] - y0
除了bbox,LTTextBoxes還有一個.get_text()方法,如上所示,該方法將文本內容作為字符串返回。請注意,每個LTTextBox都是LTChars(PDF顯式繪制的字符,帶有bbox)和LTAnnos(PDFMiner根據相隔很遠的字符向文本框內容的字符串表示添加的額外空格;這些字符沒有bbox)的集合。
這個答案開頭的代碼示例結合了這兩個屬性來顯示每個文本塊的坐標。
最后,值得注意的是,與上面提到的其他堆棧溢出答案不同,我不需要遞歸到LTFigures中,PDFMiner似乎無法將該文本分組為LTTextBoxes(您可以在https://stackoverflow.com/a/27104504/1709587中的示例PDF上進行嘗試),而是生成一個直接包含LTChar對象的LTFigure。原則上,您可以找出如何將它們組合成一個字符串,但PDFMiner(截至20181108版本)不能為您這樣做。
不過,希望您需要解析的pdf不使用包含文本的Form XObjects,所以這個警告不適用于您。
總結
以上是生活随笔為你收集整理的pdf怎么查看坐标 python_如何从PDF文件中提取文本和文本坐标?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python的division函数_Py
- 下一篇: websocket python爬虫_p