pdfminer使用方法 - Python Learning Notes 5

  1. pdfminer 是python的一个包,可以用来将pdf转化成文本文档(TXT,xml, html…)

  2. 安装方法:
    pip install pdfminer

  3. command line (命令行指令)
    使用指令行从pdf中提取文本:
    python pdf2txt.py samples/simple1.pdf
    example:
    比如我要提取mypdf.pdf中的文字,
    pdfminer使用方法 - Python Learning Notes 5_第1张图片
    命令就是:python pdf2txt.py mypdf.pdf (注意,使用这条指令时,要先把目录指到 pdf2txt.py 所在的目录,因为我的电脑中,是把它放在pycharm建造的venv中的,所以我就先把目录指向这个地方了:“E:\PythonDoc\pdfparse\venv\Scripts>”
    pdfminer使用方法 - Python Learning Notes 5_第2张图片
    使用 “ -o output : Output file name. ” 定义输出文件的名字

    python pdf2txt.py -o testpdf mypdf.pdf
    以下就是输出:
    pdfminer使用方法 - Python Learning Notes 5_第3张图片
    可以使用记事本打开以查验
    pdfminer使用方法 - Python Learning Notes 5_第4张图片

你可能感兴趣的:(pdfminer使用方法 - Python Learning Notes 5)