注:网上有很多将Markdown文档转为PDF文档的方法,但是却很少有将PDF文档转为Markdown文档的方法。就算有,比如某些网站声称可以将PDF文档转为Markdown文档,尝试过,不太符合自己的要求,而且无法保证文档没有泄露风险。于是本人为了解决这个问题,借助GPT(能使用GPT镜像或者有条件直接使用GPT的,反正能调用GPT接口就行)生成Python代码来完成这个功能。笔记、代码难免存在问题,若有错误,欢迎指出。本次笔记记录于24.1.21。(中途运行时,发现代码中存在bug从而对代码进行了更新,比如md文件的相对路径需要进行URL编码,否则可能会因空格等原因导致无法预览图片。)
Markdown文档与PDF等文档,个人认为有以下优点,所以本人在某些时候更喜欢使用md文件:1.Markdown文档添加书签更加方便快捷。2.在github/gitee上打开仓库即可直接浏览。3.便于编辑。PDF很难继续编辑,想要添加内容非常麻烦,不如Markdown文档来的直接。
注:图中PDF是本人去网上随便找的。
代码思路:
- 导入必要的库,包括os、fitz(PyMuPDF)和Image(Pillow)。
- 定义一个函数convert_pdf_to_images,该函数将PDF文档转换为图像列表。它使用PyMuPDF库获取PDF页面的图像数据,然后使用Pillow库创建图像对象,并将这些图像保存到指定目录。
- 定义另一个函数save_images_to_markdown,该函数将图像列表保存到Markdown文件中。它使用用户提供的相对路径,在Markdown文件中插入图像路径。
- 在__main__部分,替换相应的文件路径,并调用上述两个函数完成PDF到Markdown的转换。
"