pdfplumber读取pdf简历,并且写入Excel中

import pdfplumber #解析pdf文件,尤其带有表格的文件
from openpyxl import Workbook #读写Excel的文件

def parse(pdf):
    targets = [] #保存结果,
    for page in pdf.pages: 
        words = page.extract_words(x_tolerance=5)
        for word in words:
            targets.append(word['text'])
    return targets
    #print(targets)

# 保存
def save(targets, out_path, sheet_name='targets'):
    wb = Workbook()
    ws = wb.active
    ws.title = sheet_name
    ws.append(targets)
    print(ws)
    #ws.append(list(targets.values()))
    wb.save(out_path)


# 主函数入口
if __name__ == "__main__":
    print(__doc__)
    path = r'/Users/apple/Documents/ST/python/简历.pdf'
    out_path = r'/Users/apple/Documents/ST/python/简历.xlsx'
    pdf = pdfplumber.open(path)
    targets = parse(pdf)
    save(targets, out_path)
    print('运行结束!')

这个代码抽取简历所有内容,放在Excel的第一行

 

认识你是我们的缘分,同学,等等,学习人工智能,记得关注我。

 

 

微信扫一扫
关注该公众号

《湾区人工智能》

回复《人生苦短,我用Python》便可以获取下面的超高清电子书和代码

 

你可能感兴趣的:(python项目)