日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python读word文档doc公文标题_python – 从word doc中提取标题文本

發(fā)布時間:2023/12/3 python 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python读word文档doc公文标题_python – 从word doc中提取标题文本 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

我試圖從MS Word文檔(.docx文件)中的標題(任何級別)中提取文本.目前我正在嘗試使用python-docx來解決,但不幸的是我仍然無法弄清楚它是否在閱讀之后是否可行(也許我錯了).

我試圖在線尋找解決方案,但沒有發(fā)現(xiàn)我的任務(wù)特定.如果有人可以在這里指導(dǎo)我,那將是很棒的.

解決方法:

基本挑戰(zhàn)是確定標題段落.就讀者而言,沒有什么可以阻止作者將“常規(guī)”段落格式化為(并作為)標題.

但是,作者可靠地使用樣式來創(chuàng)建標題并不罕見,因為這樣做可以自動將這些標題編譯成目錄.

在這種情況下,您可以迭代段落,并選擇具有其中一種標題樣式的段落.

def iter_headings(paragraphs):

for paragraph in paragraphs:

if paragraph.style.name.startswith('Heading'):

yield paragraph

for heading in iter_headings(document.paragraphs):

print heading.text

如果標題級別保持默認值(例如“標題1”,“標題2”,……),則可以從完整樣式名稱中解析標題級別.

如果作者已重命名標題樣式,則可能需要對其進行調(diào)整.

有更復(fù)雜的方法更可靠(就樣式名稱而言),但那些沒有API支持,所以你需要深入研究內(nèi)部代碼并直接與我期望的某些樣式XML交互.

標簽:python-docx,python,parsing,text,ms-word

來源: https://codeday.me/bug/20190828/1755379.html

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的python读word文档doc公文标题_python – 从word doc中提取标题文本的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。