需要安装的库是pdf2image,可通过命令进行安装:
pip install pdf2image
需要注意的是,如果下载速度过慢,如产生异常信息为:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host=‘files pythonhosted.org’, port=443): Read timed out。此时的解决方案为更换Python下载源,使用命令为:
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
更换Python下载源的参考链接为:https://mirrors.tuna.tsinghua.edu.cn/help/pypi/
dll依赖库为poppler,下载地址为:https://download.csdn.net/download/herosunly/85088822
对我的电脑点击鼠标右键,再点击属性,然后选择
修改admin的用户变量或者系统变量中的Path,其中后者的作用域更大。
点击编辑后,建议通过界面添加路径,如果是老版本的Windows系统,添加路径的方式是复制原路径,然后添加一个英文的分号,最后再加上添加的路径即可。
这里以Jupyter Notebook为例,需要注意的是下文中的路径需要进行修改成自己环境下的对应路径:
%env path=D:\software\poppler-0.68.0_x86\poppler-0.68.0\bin
!path
也可以在cmd中进行添加,读者可自行进行研究,这里不进行赘述。
from pdf2image import convert_from_path
pages = convert_from_path('file.pdf')
for ind, page in enumerate(pages):
page.save('gen_{}.jpg'.format(ind), 'JPEG')
Linux环境下与上述类似,唯一的区别在于依赖库可直接通过命令安装poppler-utils,例如最常用的centos的安装命令为:
yum install poppler-utils