Python多平台word转pdf

最近遇到一个需求,用户从网页端上传word文件,之后服务端开一个线程,将上传的word文件转换为pdf文件。

查阅了一些资料:

  • https://blog.csdn.net/weixin_43569478/article/details/110153095
  • https://blog.csdn.net/lly1122334/article/details/122620790
  • https://zhuanlan.zhihu.com/p/344650296

发现win平台上的实现确实比较容易,但是linux和mac上就不太友好了。

1. pandoc + pypandoc

1.1 安装 pandoc

从 https://github.com/jgm/pandoc/releases 处即可下载。

1.2 安装 pypandoc

pip install pypandoc -i https://mirrors.aliyun.com/pypi/simple

1.3 安装LaTeX

如果平台本身没有pdf转换的引擎,那么在转换的时候会报错:

RuntimeError: Pandoc died with exitcode “47” during conversion: pdflatex not found. Please select a different --pdf-engine or install pdflatex

所以我们要额外安装 pdflatex

1.3.1 在 Windows上

Texlive官网是 https://tug.org/texlive/ 因为他是国外的速度比较慢,所以使用中科大镜像列表。地址是:

https://mirrors.ustc.edu.cn/CTAN/systems/texlive/Images/

下载完毕后,使用管理员身份运行install-tl-windows.bat,根据提示进行安装即可。

tex -v
latex -v
xelatex -v
pdflatex -v

来获取安装的TeX的环境信息!如果看到的版本信息能够正常输出,那么TeX Live的安装就是成功的!

在windows开始菜单里,找到 TexWords editor 编辑器,输入如下文本,点击绿色箭头

1.3.2 在 Linux 上

sudo apt install texlive
brew install basictex

2. Libreoffice

https://zh-cn.libreoffice.org/download/libreoffice/

(安装完毕后配置环境变量)

import os
import platform


def word2pdf(file_path, output_path):
    # libreOfice 下载地址:
    pf = platform.system()
    if "Windows" in pf:
        command = r'"C:\Program Files\LibreOffice\program\soffice.exe"'
    elif "Linux" in pf:
        version = r'6.4'
        command = f'libreoffice{version}'
    else:
        raise Exception("不支持的系统平台")

    os.system(f"{command} --headless --convert-to pdf {file_path} --outdir {output_path}")


if __name__=="__main__":
    word2pdf(r"C:/Users/fang/Documents/ssh登录日志_2022-05-29.docx", r"C:/Users/fang/Documents/")

你可能感兴趣的:(编码经验,python,开发语言,macos)