类型 | 名称 | 地址 | OCR | 提取表格内容 | 保留文本顺序 | 提取图片 | 保存成md格式 | 其他特性 |
---|---|---|---|---|---|---|---|---|
传统PDF解析库 | pymupdf | https://github.com/pymupdf/PyMuPDF | ❌ | ✔️ | ✔️ | ✔️ | ❌ | ● 表格提取 |
● 自定义字体 | ||||||||
传统PDF解析库 | pdfminer | https://github.com/pdfminer/pdfminer.six | ❌ | ❌ | ✔️ | ❌ | ❌ | ● 版面分析 |
传统PDF解析库 | pdfplumber | https://github.com/jsvine/pdfplumber | ❌ | ✔️ | ❌ | ❌ | ❌ | ● 表格提取,但存在丢失列的问题 |
传统PDF解析库 | pypdf2 | https://github.com/py-pdf/pypdf | ❌ | ❌ | ✔️ | ❌ | ❌ | ● pdf合并与拆分 |
● 添加水印 | ||||||||
基于模型的PDF解析一体库 | llama-parse | https://github.com/run-llama/llama_parse | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ● 付费API每天有免费额度 |
基于模型的PDF解析一体库 | open-parse | https://github.com/Filimoa/open-parse | ✔️ | ✔️ | ✔️ | ❌ | ✔️ | ● 文本支持保存markdown和html格式 |
●内置表格模型,可自由选择 | ||||||||
●表格带markdown格式 | ||||||||
基于模型的PDF解析一体库 | deepdoc | https://github.com/infiniflow/ragflow/tree/main/deepdoc | ✔️ | ✔️ | ✔️ | ✔️ | ❌ | ● 支持版面分析 |
●表格带html格式 | ||||||||
基于模型的PDF解析一体库 | MinerU | https://github.com/opendatalab/MinerU/tree/master | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ● 文本带markdown格式 |
● 解析保留中间过程,可用于二次调优 | ||||||||
● 表格提取非常慢,目前效果一般 |
pymupdf(fitz)
即可,能正确保留双列布局的文本顺序,同时能提取表格和图片,而且表格是以List
的格式保留。llama-parse
中文文档效果不好,而且还是通过API使用,但是每天有固定的免费额度,可以用于处理扫描件。deepdoc
和MinerU
是近期开源项目中比较强大的RAG解析工具。deepdoc
优势点在于表格效果较好,亲测无边框的表格有大多数效果仍可圈可点,并且保留为html格式,因此允许合并单元格;MinerU
优势在于识别的文本带有markdown格式,因此用于RAG切分文档中可以省去不少功夫。大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 有需要的小伙伴,可以 扫描下方二维码领取↓↓↓
CSDN大礼包:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
目标:了解AI大模型的基本概念、发展历程和核心原理。
内容:
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
内容:
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
内容:
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
内容:
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 有需要的小伙伴,可以 扫描下方二维码领取↓↓↓
CSDN大礼包:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)