python读取pdf文件

使用python读取pdf文件的内容

读取第1页的内容:

import PyPDF2
pdfFileObj = open('a.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)
print(pageObj.extractText())

输出该pdf文件共有多少页,并输出该pdf的第1页的内容。

读取第1-100页的内容:

import PyPDF2
pdfFileObj = open('a.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)

for i in range(100):
    pageObj = pdfReader.getPage(i)
    print(pageObj.extractText())

输出该pdf文件共有多少页,并输出该pdf的第1-100页的内容。

注意:将a.pdf与python文件放在同一目录下。

 

 

你可能感兴趣的:(python,笔记,python,pdf,开发语言)