【Python】PyMuPDF模块将PDF转换为图片
生活随笔
收集整理的這篇文章主要介紹了
【Python】PyMuPDF模块将PDF转换为图片
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
上一篇文章介紹了pdf2image模塊+poppler將PDF轉(zhuǎn)換為圖片,這篇文章主要介紹另外一個(gè)模塊PyMuPDF。?
PyMuPDF(又名“fitz”):MuPDF的Python綁定,它是一個(gè)輕量級(jí)的PDF和XPS查看器。該庫(kù)可以訪問PDF,XPS,OpenXPS,epub,漫畫和小說書籍格式的文件,并以其頂級(jí)性能和高渲染質(zhì)量而聞名。
第三方庫(kù) PyMuPDF 在 python 環(huán)境下對(duì) PDF 文件的操作,特別是圖片和pdf之間相互轉(zhuǎn)換比較方便,并且能較方便的執(zhí)行一些如追加刪除之類的功能。
文檔地址:https://pymupdf.readthedocs.io/en/latest/
github地址:https://github.com/pymupdf/PyMuPDF
# -*- coding: utf-8 -*- ''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''' #作者:cacho_37967865 #博客:https://blog.csdn.net/sinat_37967865 #文件:PyMuPDFModel.py #日期:2019-10-10 #備注:pip install PyMuPDF https://github.com/pymupdf/PyMuPDF '''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''import fitz from operator import itemgetter import os import time from saveFile import a_save_txt# 將pdf轉(zhuǎn)換為圖片 def pdf_to_image(pdfPath, imagePath):pdfDoc = fitz.open(pdfPath)for pg in range(pdfDoc.pageCount):page = pdfDoc[pg]pix = page.getPixmap(alpha=False) # 默認(rèn)是720*x尺寸if not os.path.exists(imagePath):os.makedirs(imagePath)pix.writePNG(imagePath+'/'+'images_%s.jpg' % pg) #將圖片寫入指定的文件夾內(nèi)# 將pdf轉(zhuǎn)換為txt文字 def pdf_to_text(pdfPath, textPath):doc = fitz.open(pdfPath)for page in doc:text = page.getText()print(text)a_save_txt(textPath,text)def pdf_to_TextBlocks(pdfPath, textPath):doc = fitz.open(pdfPath)for page in doc:blocks = page.getTextBlocks()sb = sorted(blocks, key=itemgetter(1, 0))for b in sb:print(b[4])def main():sTime = time.time()#pdf_to_image('1.pdf', 'F:\image\\output\\')pdf_to_text('1.pdf', 'F:\image\pdftxt.txt')#pdf_to_TextBlocks('1.pdf', 'F:\image\pdftxt.txt')eTime = time.time()s = eTime - sTimeprint('花費(fèi)的時(shí)間為:%.2f秒' % (s))if __name__ == '__main__':main()?
總結(jié)
以上是生活随笔為你收集整理的【Python】PyMuPDF模块将PDF转换为图片的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Jmeter跨线程组传递参数
- 下一篇: 【Python爬虫】微信公众号历史文章和