Python 实现doc docx xls pdf html等文件格式互转

  • doc、docx、xls 转 pdf:

利用libreoffice工具,libreoffice安装请自行百度。

 cmd = 'libreoffice --invisible --convert-to pdf --outdir "%s" "%s"' % (out_dir, filepath)
 code = os.system(cmd)  #成功返回0,失败返回1
  • doc、docx、xls 转 html:
 cmd = 'libreoffice --invisible --convert-to html --outdir "%s" "%s"' % (out_dir, filepath)
 code = os.system(cmd)  #成功返回0,失败返回1
  • pdf 转 html:

利用pdf2htmlex工具进行转换。

源码地址:https://github.com/coolwanglu/pdf2htmlEX

安装教程:https://github.com/coolwanglu/pdf2htmlEX/wiki/Building

在centos系统上安装较为复杂,最好直接使用网上大神做好的dokcer镜像。

镜像地址:https://hub.docker.com/r/bwits/pdf2htmlex(可以看做是一个本地工具)

                  https://hub.docker.com/r/ukwa/pdf2htmlex(里面用flask做的一个服务,可以根据自己需要修改这个服务)

  • doc转docx

利用win32com库调用windows系统上的office接口

https://download.csdn.net/download/bocai_xiaodaidai/11247305

你可能感兴趣的:(Python)