python批量提取word指定内容到excel_如何将word中的数据批量提取到excel中?

将.doc或.docx作为压缩文档打开,也可以直接将后缀该为.zip(先备份好,如果改后缀的话),最后你会看到你world中的一些插曲文件和主题等信息,world/document.xml 就是文字内容说在的文本文件了,用记事本打开就可以看到内容了。

打开以后效果:

很容易看出之间的部分就是文档中的文字,顺序提取就可以得到文字了,接下来你是自己做进一步的处理,有些特殊符号主要替换< &eq等等。html转意字符http://tool.oschina.net/commons?type=2

写在后面:

其实如果答主会c#就很好办,后台调用world进程进行转txt再提取就解决了,数量少的话自己手动转txt(复制粘贴)也省了自己解码这个world文档,毕竟计算机只认二进制文档和文本文档的。

推荐ziplib库给你用如果不知道怎么解压缩的话,提取文字可以用正则表达式或者自己用提取软件,或自己去用代码慢慢在文本中找,excel的写入可以用c#的NPOI库,python的xlsxwriter都可以。其实NPOI库也可以操作world毕竟来自java老大哥的,把东西做死了也许没什么好处,方法多的是呢。

比如用perl的:Spreadsheet::ParseExcel

Spreadsheet::WriteExcel

模块。

不要问我为什么写入偏要我用别人写好的库,我只想说写进去真的很麻烦,如果写入能做得和wps一样我就可以去跟他们竞争了可惜不存在的。

你可能感兴趣的:(python批量提取word指定内容到excel_如何将word中的数据批量提取到excel中?)