使用Python将PDF转换成图片

文章目录

  • 1. 在Windows环境下搭建环境
    • 1.1 安装Python库
    • 1.2 下载dll依赖库
    • 1.3 将dll依赖库添加到环境变量PATH中
      • 1.3.1 通过GUI(界面)进行永久性添加
      • 1.3.2 通过代码进行临时添加
  • 2. 实操代码
  • 3. Linux环境进行操作

1. 在Windows环境下搭建环境

1.1 安装Python库

  需要安装的库是pdf2image,可通过命令进行安装:

pip install pdf2image

  需要注意的是,如果下载速度过慢,如产生异常信息为:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host=‘files pythonhosted.org’, port=443): Read timed out。此时的解决方案为更换Python下载源,使用命令为:

python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

  更换Python下载源的参考链接为:https://mirrors.tuna.tsinghua.edu.cn/help/pypi/

1.2 下载dll依赖库

  dll依赖库为poppler,下载地址为:https://download.csdn.net/download/herosunly/85088822

1.3 将dll依赖库添加到环境变量PATH中

1.3.1 通过GUI(界面)进行永久性添加

  对我的电脑点击鼠标右键,再点击属性,然后选择
使用Python将PDF转换成图片_第1张图片
  修改admin的用户变量或者系统变量中的Path,其中后者的作用域更大。
使用Python将PDF转换成图片_第2张图片
  点击编辑后,建议通过界面添加路径,如果是老版本的Windows系统,添加路径的方式是复制原路径,然后添加一个英文的分号,最后再加上添加的路径即可。

1.3.2 通过代码进行临时添加

  这里以Jupyter Notebook为例,需要注意的是下文中的路径需要进行修改成自己环境下的对应路径:

%env path=D:\software\poppler-0.68.0_x86\poppler-0.68.0\bin
!path

  也可以在cmd中进行添加,读者可自行进行研究,这里不进行赘述。

2. 实操代码

from pdf2image import convert_from_path
pages = convert_from_path('file.pdf')

for ind, page in enumerate(pages):
    page.save('gen_{}.jpg'.format(ind), 'JPEG')

3. Linux环境进行操作

  Linux环境下与上述类似,唯一的区别在于依赖库可直接通过命令安装poppler-utils,例如最常用的centos的安装命令为:

yum install poppler-utils

你可能感兴趣的:(python)