pdfplumber读取PDF文本内容时出现cid字符

用pdfplumber读取pdf页眉文本内容时,核心的代码如下:

pdf = pdfplumber.open(bfilePath)
words = pdf.pages[0].extract_words()
for word in words:
    print("pdf中的内容:%s", word)

结果显示如下:
pdfplumber读取PDF文本内容时出现cid字符_第1张图片
text属性后面并不是常见的中文字符,而是cid字符,查了很多资料都没解决,后来看到一篇文章里说可以通过chr(int(number)) ,number为cid后面的数字,比如上面的cid:25688, 为了转换为中文字符,就可以写做chr(int(25688))

你可能感兴趣的:(办公自动化,Python,pdf,word)