doc/docx 批量转换html txt工具

用python处理信息时经常需要面对doc/docx文档,这两者机制还不一样,偏偏拿到的文件既有doc格式又有docx的,很头疼。

python的第三方库python-docx适用于写入,但对于读取信息并不友好(python-docx会把每一行解析成一个Document对象,涉及到多行信息提取就无能为力)

最后想了想,把word文档统一转化成python可以直接处理的txt会方便很多。找了很久,终于找到一个免费干净的word文档转txt程序,如下:

doc/docx 批量转换html txt工具_第1张图片

软件界面

doc/docx 批量转换html txt工具_第2张图片

几千个文档几分钟便转化好了

下载地址:

http://www.multidoc-converter.com/en/download/index.html



作者:香草喵
链接:https://www.jianshu.com/p/1e8af633fc08
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

你可能感兴趣的:(杂七杂八)