利用libreoffice工具,libreoffice安装请自行百度。
cmd = 'libreoffice --invisible --convert-to pdf --outdir "%s" "%s"' % (out_dir, filepath)
code = os.system(cmd) #成功返回0,失败返回1
cmd = 'libreoffice --invisible --convert-to html --outdir "%s" "%s"' % (out_dir, filepath)
code = os.system(cmd) #成功返回0,失败返回1
利用pdf2htmlex工具进行转换。
源码地址:https://github.com/coolwanglu/pdf2htmlEX
安装教程:https://github.com/coolwanglu/pdf2htmlEX/wiki/Building
在centos系统上安装较为复杂,最好直接使用网上大神做好的dokcer镜像。
镜像地址:https://hub.docker.com/r/bwits/pdf2htmlex(可以看做是一个本地工具)
https://hub.docker.com/r/ukwa/pdf2htmlex(里面用flask做的一个服务,可以根据自己需要修改这个服务)
利用win32com库调用windows系统上的office接口
https://download.csdn.net/download/bocai_xiaodaidai/11247305