pdf to image python实现笔记

前言

最近项目需要pdf中提取内容,pdf是扫描版,想通过转成图片,通过图像识别区分出段落,然后进行ocr识别,得到结构化数据
所以第一步需要搞定的就是pdf转图片了

环境:Mac 10.12.6 (16G29)

正文

安装依赖

注意imagemagick,目前不支持最新的7版本,所以只能装6

brew install freetype
brew install GhostScript
brew install imagemagick@6
brew link --overwrite imagemagick@6
echo 'export MAGICK_HOME=/usr/local/opt/imagemagick@6' >> ~/.bash_profile
echo 'export PATH="$MAGICK_HOME/bin:$PATH"' >> ~/.bash_profile
pip install Wand

python 脚本

from wand.image import Image
# Converting first page into JPG
with Image(filename="/thumbnail.pdf[0]") as img:
     img.save(filename="/temp.jpg")

你可能感兴趣的:(pdf to image python实现笔记)