日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

把docx格式的word文档转换为txt文件

發(fā)布時(shí)間:2023/12/10 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 把docx格式的word文档转换为txt文件 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

docx格式轉(zhuǎn)txt格式

  • 先將doc格式轉(zhuǎn)換為docx格式
  • 運(yùn)用python-docx工具包來(lái)操作word文檔
    • 亂碼問(wèn)題
    • 通過(guò)給定分隔符切分文段,并且保留分隔符

先將doc格式轉(zhuǎn)換為docx格式

這里可以參考我的另一個(gè)博客: doc轉(zhuǎn)docx.

def doc_to_docx(file_dir):docfiles = []for root, dirs, files in os.walk(file_dir):for file in files:if os.path.splitext(file)[1] == '.doc':docfiles.append(os.path.join(root, file))word = wc.Dispatch("Word.Application") # 打開(kāi)word應(yīng)用程序for docfile in docfiles:doc = word.Documents.Open(docfile) # 打開(kāi)word文件doc.SaveAs('{}x'.format(docfile), 12) # 另存為后綴為".docx"的文件,其中參數(shù)12指docx文件doc.Close() # 關(guān)閉原來(lái)word文件os.remove(docfile)word.Quit()print("完成!")

運(yùn)用python-docx工具包來(lái)操作word文檔

首先下載docx工具包,在命令行中輸入pip install docx,就可以安裝docx工具包。

接著,讀取word文檔里面的文本和表格內(nèi)容(因?yàn)槲視簳r(shí)處理的主要是這兩種格式,所以只探究了如何提取這兩種格式文本的方法)。

from docx import Document #導(dǎo)入方法 document = Document(filename) #注意這里的filename必須是包含絕對(duì)路徑的文件名# 讀取每段資料 l = [paragraph.text.encode('utf-8') for paragraph in document.paragraphs]# 輸出并觀察結(jié)果,也可以通過(guò)其他手段處理文本即可 pattern = r'(。|!|?|;)' for i in l:list = []seg = i.decode('utf-8')seg = re.split(pattern, seg)seg.append("")seg = ["".join(i) for i in zip(seg[0::2], seg[1::2])] for word in seg: # 讀取表格材料,并輸出結(jié)果 tables = [table for table in document.tables] for table in tables:for row in table.rows:for cell in row.cells:print(cell.text.encode('utf-8').decode('utf-8'), '\t', )

亂碼問(wèn)題

最開(kāi)始的時(shí)候,會(huì)出現(xiàn)一些亂碼問(wèn)題,上網(wǎng)查詢(xún)了一下是編碼問(wèn)題,具體操作就是給定指定的編碼格式utf-8,這里以后再去詳細(xì)了解,我主要就靠著給含有文本的變量名定義decode(‘utf-8’)來(lái)使得編碼成功解析出漢字(如果嘗試的變量名沒(méi)有decode后綴,可以先encode(‘utf-8’)再decode(‘utf-8’))例如代碼里面的:

seg = i.decode('utf-8') cell.text.encode('utf-8').decode('utf-8')

通過(guò)給定分隔符切分文段,并且保留分隔符

在提取文本時(shí),我需要將大段的文本通過(guò)我要求的字符來(lái)切分成一句一句的句子,同時(shí),需要保留分隔符在句尾。平常運(yùn)用的split方法會(huì)直接將切分符號(hào)去掉,滿(mǎn)足不了要求(這里,我沒(méi)想到運(yùn)用split方法能切分文段且保留標(biāo)記的辦法),網(wǎng)上找到了一個(gè)方法,特此記錄學(xué)習(xí)一下。貼一下博客鏈接: 保留分隔符在句尾.

pattern = r'(。|!|?|;)' #定義需要切割的分割符,加上()保留分隔符 seg = re.split(pattern, seg) #通過(guò)split先進(jìn)行切分 seg.append("") seg = ["".join(i) for i in zip(seg[0::2], seg[1::2])]

寫(xiě)進(jìn)txt文件里面

output = open(filename, 'w', encoding='utf-8')for sentence in seg:output.write(sentence + '\n')

總結(jié)

以上是生活随笔為你收集整理的把docx格式的word文档转换为txt文件的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。