python合并多个pdf_pypdf将多个pdf文件合并到一个pd中
我最近遇到了一個完全相同的問題,所以我深入PyPDF2,看看發生了什么,以及如何解決它。
注意:我假設filename是格式良好的文件路徑字符串。假設我所有的代碼都是一樣的
簡短的回答
使用PdfFileMerger()類而不是PdfFileWriter()類。我已經盡力提供以下內容以盡可能接近您的內容:from PyPDF2 import PdfFileMerger, PdfFileReader
[...]
merger = PdfFileMerger()
for filename in filenames:
merger.append(PdfFileReader(file(filename, 'rb')))
merger.write("document-output.pdf")
長長的答案
使用PdfFileReader和PdfFileWriter的方法是保持每個文件打開,并最終導致Python生成IOError 24。更具體地說,當您將頁面添加到PdfFileWriter時,您將在打開的PdfFileReader中添加對該頁面的引用(因此,如果您關閉該文件,將出現注意到的IO錯誤)。Python檢測到文件仍然被引用,并且不會執行任何垃圾收集/自動關閉文件,盡管重新使用了文件句柄。它們一直保持打開狀態,直到不再需要訪問它們,這在代碼中的output.write(outputStream)處。
要解決此問題,請在內容的內存中創建副本,并允許關閉文件。在我通過PyPDF2代碼進行的冒險中,我注意到PdfFileMerger()類已經有了這個功能,所以我沒有重新發明輪子,而是選擇使用它。不過,我了解到,我最初對PdfFileMerger的看法不夠接近,而且它只在特定條件下創建了拷貝。
我最初的嘗試如下所示,并導致了相同的IO問題:merger = PdfFileMerger()
for filename in filenames:
merger.append(filename)
merger.write(output_file_path)
查看PyPDF2源代碼,我們看到append()需要傳遞fileobj,然后使用merge()函數,將其最后一頁作為新文件位置傳入。merge()使用fileobj執行以下操作(在使用PdfFileReader(fileobj)打開之前:if type(fileobj) in (str, unicode):
fileobj = file(fileobj, 'rb')
my_file = True
elif type(fileobj) == file:
fileobj.seek(0)
filecontent = fileobj.read()
fileobj = StringIO(filecontent)
my_file = True
elif type(fileobj) == PdfFileReader:
orig_tell = fileobj.stream.tell()
fileobj.stream.seek(0)
filecontent = StringIO(fileobj.stream.read())
fileobj.stream.seek(orig_tell)
fileobj = filecontent
my_file = True
我們可以看到append()選項確實接受字符串,在這樣做時,假設它是一個文件路徑,并在該位置創建一個文件對象。最終的結果和我們試圖避免的完全一樣。一個PdfFileReader()對象,在文件最終被寫入之前一直保持打開文件的狀態!
但是,如果我們在路徑字符串傳遞到append()之前,將文件路徑字符串的文件對象或aPdfFileReader(請參見編輯2)對象作為StringIO對象,它將自動為我們創建副本,允許Python關閉文件。
我建議使用更簡單的merger.append(file(filename, 'rb')),因為其他人已經報告了PdfFileReader對象可能在內存中保持打開狀態,即使在調用writer.close()之后也是如此。
希望這有幫助!
編輯:我假設您使用的是PyPDF2,而不是PyPDF。如果沒有,我強烈建議您進行切換,因為PyPDF不再被維護,而作者在開發PyPDF2的過程中正式支持Phaseit。
如果由于某種原因您不能交換到PyPDF2(許可、系統限制等),那么PdfFileMerger將不可用。在這種情況下,可以重用PyPDF2的merge函數(上面提供)中的代碼,以StringIO對象的形式創建文件副本,并在代碼中使用它來代替file對象。
編輯2:以前使用merger.append(PdfFileReader(file(filename, 'rb')))的建議根據注釋進行了更改(謝謝@Agostino)。
總結
以上是生活随笔為你收集整理的python合并多个pdf_pypdf将多个pdf文件合并到一个pd中的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据库笔记(基本介绍及增删改查操作举例)
- 下一篇: websocket python爬虫_p