把docx格式的word文档转换为txt文件
docx格式轉(zhuǎn)txt格式
- 先將doc格式轉(zhuǎn)換為docx格式
- 運(yùn)用python-docx工具包來(lái)操作word文檔
- 亂碼問(wèn)題
- 通過(guò)給定分隔符切分文段,并且保留分隔符
先將doc格式轉(zhuǎn)換為docx格式
這里可以參考我的另一個(gè)博客: doc轉(zhuǎn)docx.
def doc_to_docx(file_dir):docfiles = []for root, dirs, files in os.walk(file_dir):for file in files:if os.path.splitext(file)[1] == '.doc':docfiles.append(os.path.join(root, file))word = wc.Dispatch("Word.Application") # 打開(kāi)word應(yīng)用程序for docfile in docfiles:doc = word.Documents.Open(docfile) # 打開(kāi)word文件doc.SaveAs('{}x'.format(docfile), 12) # 另存為后綴為".docx"的文件,其中參數(shù)12指docx文件doc.Close() # 關(guān)閉原來(lái)word文件os.remove(docfile)word.Quit()print("完成!")運(yùn)用python-docx工具包來(lái)操作word文檔
首先下載docx工具包,在命令行中輸入pip install docx,就可以安裝docx工具包。接著,讀取word文檔里面的文本和表格內(nèi)容(因?yàn)槲視簳r(shí)處理的主要是這兩種格式,所以只探究了如何提取這兩種格式文本的方法)。
from docx import Document #導(dǎo)入方法 document = Document(filename) #注意這里的filename必須是包含絕對(duì)路徑的文件名# 讀取每段資料 l = [paragraph.text.encode('utf-8') for paragraph in document.paragraphs]# 輸出并觀察結(jié)果,也可以通過(guò)其他手段處理文本即可 pattern = r'(。|!|?|;)' for i in l:list = []seg = i.decode('utf-8')seg = re.split(pattern, seg)seg.append("")seg = ["".join(i) for i in zip(seg[0::2], seg[1::2])] for word in seg: # 讀取表格材料,并輸出結(jié)果 tables = [table for table in document.tables] for table in tables:for row in table.rows:for cell in row.cells:print(cell.text.encode('utf-8').decode('utf-8'), '\t', )亂碼問(wèn)題
最開(kāi)始的時(shí)候,會(huì)出現(xiàn)一些亂碼問(wèn)題,上網(wǎng)查詢(xún)了一下是編碼問(wèn)題,具體操作就是給定指定的編碼格式utf-8,這里以后再去詳細(xì)了解,我主要就靠著給含有文本的變量名定義decode(‘utf-8’)來(lái)使得編碼成功解析出漢字(如果嘗試的變量名沒(méi)有decode后綴,可以先encode(‘utf-8’)再decode(‘utf-8’))例如代碼里面的:
seg = i.decode('utf-8') cell.text.encode('utf-8').decode('utf-8')通過(guò)給定分隔符切分文段,并且保留分隔符
在提取文本時(shí),我需要將大段的文本通過(guò)我要求的字符來(lái)切分成一句一句的句子,同時(shí),需要保留分隔符在句尾。平常運(yùn)用的split方法會(huì)直接將切分符號(hào)去掉,滿(mǎn)足不了要求(這里,我沒(méi)想到運(yùn)用split方法能切分文段且保留標(biāo)記的辦法),網(wǎng)上找到了一個(gè)方法,特此記錄學(xué)習(xí)一下。貼一下博客鏈接: 保留分隔符在句尾.
pattern = r'(。|!|?|;)' #定義需要切割的分割符,加上()保留分隔符 seg = re.split(pattern, seg) #通過(guò)split先進(jìn)行切分 seg.append("") seg = ["".join(i) for i in zip(seg[0::2], seg[1::2])]寫(xiě)進(jìn)txt文件里面
output = open(filename, 'w', encoding='utf-8')for sentence in seg:output.write(sentence + '\n')總結(jié)
以上是生活随笔為你收集整理的把docx格式的word文档转换为txt文件的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java string类型_java中S
- 下一篇: 关于fetch api这点事