word文档提取目录
25-04-08 02:29
960
0
某提案汇总文档没有做目录,wps、word自带的功能也不能正确提取目录,就用python写了一个提取word文档目录的代码。
使用前需安装库:
pip install python-docx
修改了一下,用正则表达式来取提案号,避免取错
修改了二下,正则+开头来取提案号,且提案号数字最多三位,提高容错度
import re from docx import Document # 遍历文档中的段,取目录 def get_table_of_contents(doc): toc = [] tmp="" i=0 for paragraph in doc.paragraphs: match i: case 0: if re.search("第\\d{1,3}号", paragraph.text) and paragraph.text.startswith("第") and len(paragraph.text)<=5: tmp=paragraph.text i=1 case 1: if paragraph.text.startswith("案 由:"): toc.append(tmp+" "+paragraph.text.strip("案 由:")) i=0 return toc # 打开Word文档 doc = Document("D:\\1.docx") # 取目录 table_of_contents = get_table_of_contents(doc) # 遍历打印目录 for para in table_of_contents: print(para)
-
精通Spring 4.x 企业应用开发实战
Spring从 2004年发布第一个版本以来,至今已有12载。12年刚好是一个生肖轮回但在一日千里的计算机领域,12年基本上算是一个世纪了。都说“... 1055 0 24-05-28 -
公众号主体变更后,批量更新openid
账号迁移后,粉丝的openid会变化,微信用户关注不同的公众号,对应的openid是不一样的,迁移成功后,粉丝的openid以目标帐号(即新公众号)对应的OpenID为准。但开发者可以通过开发接口转换openid,开发文档可以参考 544 0 21-04-07 -
幼儿教师招聘资料
【豆丁★教育百科】(已打印)2009年末杭州拱墅区招聘教师考试仿真类试题.doc【豆丁★教育百科】(教师招聘教育学心理学试题及答案共六份试卷)... 948 0 24-08-20 -
MC如何淘汰冷key和失效key
淘汰策略Mc 作为缓存组件,意味着 Mc 中只能存储访问最频繁的热数据,一旦存入数据超过内存限制,就需要对 Mc 中的冷 key 进行淘汰... 1026 0 24-05-24 -
简单tab切换效果
397 0 21-06-02 -
Astro 添加 Waline 评论组件
Astro 在使用视图过渡路由时,在跳转路由时,会导致 JS 文件只有在第一次进入页面时生效,所以 Astro 在使用视图过渡路由下 Waline ... 972 0 25-04-07 -
迅捷CAD转换器单文件版
迅捷CAD转换器是迅捷出品的一款非常好用的CAD图纸版本以及PDF转CAD转换器,它完美兼容非常多的CAD文件格式,如DWG、DXF、DWT等,使用它可以... 633 0 25-04-12 -
考研政治历年真题
1994年政治考研真题(文科)及参考答案.doc1994年政治考研真题(理科)及参考答案.doc1995年政治考研真题(文科)及参考答案.doc1995年政治考研真... 1073 0 24-08-20
发表我的评论
共0条评论
- 这篇文章还没有收到评论,赶紧来抢沙发吧~