正好在做这方面的工作,还是使用fitz,就可以获得字体的大小
具体思路是:现将pdf转换成html,在使用bs4解析html
具体代码如下:
pdf2html:将pdf转换成html,这一步在转换时,有时会丢失一些字体信息
pdf2list:调用pdf2html现将pdf转换成html,在使用BeautifulSoup对html进行解析。
import fitz from bs4 import BeautifulSoup from tqdm import tqdm
def pdf2html(input_path):
'''
将pdf转成html
:param input_path:
:return:
'''
doc = fitz.open(input_path)
html_content = ''
for page in tqdm(doc):
html_content += page.get_text('html')
# print('开始输出html文件')html_path
# #html_content +="