说说如何使用 python-docx 读取 word 文档
生活随笔
收集整理的這篇文章主要介紹了
说说如何使用 python-docx 读取 word 文档
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1 基本用法
import docxdoc = docx.Document('示例文檔.docx') print('段落數(shù):') print(len(doc.paragraphs))print('第一段內(nèi)容文本=' + doc.paragraphs[0].text)print('第一段內(nèi)容中的 Run 對象個數(shù):') print(len(doc.paragraphs[0].runs))print('遍歷第一段內(nèi)容中的 Run 對象:') for i in range(0, len(doc.paragraphs[0].runs)):print(doc.paragraphs[0].runs[i].text)運行結(jié)果:
段落數(shù):
2
第一段內(nèi)容文本=概要設(shè)計說明書又可稱系統(tǒng)設(shè)計說明書。
第一段內(nèi)容中的 Run 對象個數(shù):
3
遍歷第一段內(nèi)容中的 Run 對象:
概要設(shè)計說明書又可稱
系統(tǒng)設(shè)計說明書
。
- 調(diào)用 docx.Document() 會加載整個 docx 文檔,放入返回的 Document 對象中。
- Document 對象擁有 paragraphs 屬性,對其調(diào)用 len(),就會返回 docx 中的段落總數(shù)。
- 每個 Paragraph 對象都有 text 屬性,存放的是段落中的字符串信息,注意: 這里不包括樣式。
- 每個 Paragraph 對象也有一個 runs 屬性,它是存放 Run 對象的列表。 Run 對象也有 text 屬性,這個屬性包含其內(nèi)部的字符串信息。
2 讀取整篇文檔
我們可以利用上述方法,寫一個讀取整篇文檔的通用方法:
import docxdef get_text(file_path, indent_size=0):''':param file_path: 文件路徑:param indent_size: 段落縮進空格寬度:return:獲取文檔中的所有內(nèi)容'''doc = docx.Document(file_path)texts = []indent = ''for i in range(0, indent_size):indent = indent + ' 'for paragraph in doc.paragraphs:texts.append(indent + paragraph.text)return '\n'.join(texts)這樣使用它:
from read_docx import get_text ...print('----讀取整篇文檔內(nèi)容(純文本)----') print(get_text('示例文檔.docx')) print() print('----加上段落縮進空格寬度-----') print(get_text('示例文檔.docx',4))運行結(jié)果:
----讀取整篇文檔內(nèi)容(純文本)---- 概要設(shè)計說明書又可稱系統(tǒng)設(shè)計說明書。概要設(shè)計是一個設(shè)計師根據(jù)用戶交互過程和用戶需求來形成交互框架和視覺框架的過程,其結(jié)果往往以反映交互控件布置、界面元素分組以及界面整體板式的頁面框架圖的形式來呈現(xiàn)。這是一個在用戶研究和設(shè)計之間架起橋梁,使用戶研究和設(shè)計無縫結(jié)合,將對用戶目標(biāo)與需求轉(zhuǎn)換成具體界面設(shè)計解決方案的重要階段。----加上段落縮進空格寬度-----概要設(shè)計說明書又可稱系統(tǒng)設(shè)計說明書。概要設(shè)計是一個設(shè)計師根據(jù)用戶交互過程和用戶需求來形成交互框架和視覺框架的過程,其結(jié)果往往以反映交互控件布置、界面元素分組以及界面整體板式的頁面框架圖的形式來呈現(xiàn)。這是一個在用戶研究和設(shè)計之間架起橋梁,使用戶研究和設(shè)計無縫結(jié)合,將對用戶目標(biāo)與需求轉(zhuǎn)換成具體界面設(shè)計解決方案的重要階段。總結(jié)
以上是生活随笔為你收集整理的说说如何使用 python-docx 读取 word 文档的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: G1中的技术细节
- 下一篇: websocket python爬虫_p