日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python合并多个pdf_pypdf将多个pdf文件合并到一个pd中

發布時間:2023/12/15 python 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python合并多个pdf_pypdf将多个pdf文件合并到一个pd中 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我最近遇到了一個完全相同的問題,所以我深入PyPDF2,看看發生了什么,以及如何解決它。

注意:我假設filename是格式良好的文件路徑字符串。假設我所有的代碼都是一樣的

簡短的回答

使用PdfFileMerger()類而不是PdfFileWriter()類。我已經盡力提供以下內容以盡可能接近您的內容:from PyPDF2 import PdfFileMerger, PdfFileReader

[...]

merger = PdfFileMerger()

for filename in filenames:

merger.append(PdfFileReader(file(filename, 'rb')))

merger.write("document-output.pdf")

長長的答案

使用PdfFileReader和PdfFileWriter的方法是保持每個文件打開,并最終導致Python生成IOError 24。更具體地說,當您將頁面添加到PdfFileWriter時,您將在打開的PdfFileReader中添加對該頁面的引用(因此,如果您關閉該文件,將出現注意到的IO錯誤)。Python檢測到文件仍然被引用,并且不會執行任何垃圾收集/自動關閉文件,盡管重新使用了文件句柄。它們一直保持打開狀態,直到不再需要訪問它們,這在代碼中的output.write(outputStream)處。

要解決此問題,請在內容的內存中創建副本,并允許關閉文件。在我通過PyPDF2代碼進行的冒險中,我注意到PdfFileMerger()類已經有了這個功能,所以我沒有重新發明輪子,而是選擇使用它。不過,我了解到,我最初對PdfFileMerger的看法不夠接近,而且它只在特定條件下創建了拷貝。

我最初的嘗試如下所示,并導致了相同的IO問題:merger = PdfFileMerger()

for filename in filenames:

merger.append(filename)

merger.write(output_file_path)

查看PyPDF2源代碼,我們看到append()需要傳遞fileobj,然后使用merge()函數,將其最后一頁作為新文件位置傳入。merge()使用fileobj執行以下操作(在使用PdfFileReader(fileobj)打開之前:if type(fileobj) in (str, unicode):

fileobj = file(fileobj, 'rb')

my_file = True

elif type(fileobj) == file:

fileobj.seek(0)

filecontent = fileobj.read()

fileobj = StringIO(filecontent)

my_file = True

elif type(fileobj) == PdfFileReader:

orig_tell = fileobj.stream.tell()

fileobj.stream.seek(0)

filecontent = StringIO(fileobj.stream.read())

fileobj.stream.seek(orig_tell)

fileobj = filecontent

my_file = True

我們可以看到append()選項確實接受字符串,在這樣做時,假設它是一個文件路徑,并在該位置創建一個文件對象。最終的結果和我們試圖避免的完全一樣。一個PdfFileReader()對象,在文件最終被寫入之前一直保持打開文件的狀態!

但是,如果我們在路徑字符串傳遞到append()之前,將文件路徑字符串的文件對象或aPdfFileReader(請參見編輯2)對象作為StringIO對象,它將自動為我們創建副本,允許Python關閉文件。

我建議使用更簡單的merger.append(file(filename, 'rb')),因為其他人已經報告了PdfFileReader對象可能在內存中保持打開狀態,即使在調用writer.close()之后也是如此。

希望這有幫助!

編輯:我假設您使用的是PyPDF2,而不是PyPDF。如果沒有,我強烈建議您進行切換,因為PyPDF不再被維護,而作者在開發PyPDF2的過程中正式支持Phaseit。

如果由于某種原因您不能交換到PyPDF2(許可、系統限制等),那么PdfFileMerger將不可用。在這種情況下,可以重用PyPDF2的merge函數(上面提供)中的代碼,以StringIO對象的形式創建文件副本,并在代碼中使用它來代替file對象。

編輯2:以前使用merger.append(PdfFileReader(file(filename, 'rb')))的建議根據注釋進行了更改(謝謝@Agostino)。

總結

以上是生活随笔為你收集整理的python合并多个pdf_pypdf将多个pdf文件合并到一个pd中的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。