當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

把docx格式的word文档转换为txt文件

發(fā)布時(shí)間：2023/12/10 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了把docx格式的word文档转换为txt文件小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

docx格式轉(zhuǎn)txt格式

先將doc格式轉(zhuǎn)換為docx格式
運(yùn)用python-docx工具包來(lái)操作word文檔
- 亂碼問(wèn)題
- 通過(guò)給定分隔符切分文段，并且保留分隔符

先將doc格式轉(zhuǎn)換為docx格式

這里可以參考我的另一個(gè)博客: doc轉(zhuǎn)docx.

def doc_to_docx(file_dir):docfiles = []for root, dirs, files in os.walk(file_dir):for file in files:if os.path.splitext(file)[1] == '.doc':docfiles.append(os.path.join(root, file))word = wc.Dispatch("Word.Application") # 打開(kāi)word應(yīng)用程序for docfile in docfiles:doc = word.Documents.Open(docfile) # 打開(kāi)word文件doc.SaveAs('{}x'.format(docfile), 12) # 另存為后綴為".docx"的文件，其中參數(shù)12指docx文件doc.Close() # 關(guān)閉原來(lái)word文件os.remove(docfile)word.Quit()print("完成！")

運(yùn)用python-docx工具包來(lái)操作word文檔

首先下載docx工具包，在命令行中輸入pip install docx,就可以安裝docx工具包。

接著，讀取word文檔里面的文本和表格內(nèi)容（因?yàn)槲視簳r(shí)處理的主要是這兩種格式，所以只探究了如何提取這兩種格式文本的方法）。

from docx import Document #導(dǎo)入方法 document = Document(filename) #注意這里的filename必須是包含絕對(duì)路徑的文件名# 讀取每段資料 l = [paragraph.text.encode('utf-8') for paragraph in document.paragraphs]# 輸出并觀察結(jié)果，也可以通過(guò)其他手段處理文本即可 pattern = r'(。|！|？|；)' for i in l:list = []seg = i.decode('utf-8')seg = re.split(pattern, seg)seg.append("")seg = ["".join(i) for i in zip(seg[0::2], seg[1::2])] for word in seg: # 讀取表格材料，并輸出結(jié)果 tables = [table for table in document.tables] for table in tables:for row in table.rows:for cell in row.cells:print(cell.text.encode('utf-8').decode('utf-8'), '\t', )

亂碼問(wèn)題

最開(kāi)始的時(shí)候，會(huì)出現(xiàn)一些亂碼問(wèn)題，上網(wǎng)查詢(xún)了一下是編碼問(wèn)題，具體操作就是給定指定的編碼格式utf-8，這里以后再去詳細(xì)了解，我主要就靠著給含有文本的變量名定義decode(‘utf-8’)來(lái)使得編碼成功解析出漢字（如果嘗試的變量名沒(méi)有decode后綴，可以先encode(‘utf-8’)再decode(‘utf-8’)）例如代碼里面的：

seg = i.decode('utf-8') cell.text.encode('utf-8').decode('utf-8')

通過(guò)給定分隔符切分文段，并且保留分隔符

在提取文本時(shí)，我需要將大段的文本通過(guò)我要求的字符來(lái)切分成一句一句的句子，同時(shí)，需要保留分隔符在句尾。平常運(yùn)用的split方法會(huì)直接將切分符號(hào)去掉，滿(mǎn)足不了要求（這里，我沒(méi)想到運(yùn)用split方法能切分文段且保留標(biāo)記的辦法），網(wǎng)上找到了一個(gè)方法，特此記錄學(xué)習(xí)一下。貼一下博客鏈接: 保留分隔符在句尾.

pattern = r'(。|！|？|；)' #定義需要切割的分割符，加上（）保留分隔符 seg = re.split(pattern, seg) #通過(guò)split先進(jìn)行切分 seg.append("") seg = ["".join(i) for i in zip(seg[0::2], seg[1::2])]

寫(xiě)進(jìn)txt文件里面

output = open(filename, 'w', encoding='utf-8')for sentence in seg:output.write(sentence + '\n')

總結(jié)

以上是生活随笔為你收集整理的把docx格式的word文档转换为txt文件的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： java string类型_java中S
下一篇：关于fetch api这点事