Langchain-chatchat在使用知识库上床PPTX文件时,进行量化时候的报错解决

项目场景:

Langchain-chatchat在使用知识库上床PPTX文件时,进行量化时候的报错解决。langchain-chatchat 0.3.1前端,xinference作为后端大模型加载平台。


问题描述

提示:这里描述项目中遇到的问题:

在本地部署langchain-chatchat 0.3.1中,创建本地知识库后,发现上传PPTX类型文档时,系统报错,如下提示:
INFO: 127.0.0.1:50297 - “POST /knowledge_base/upload_docs HTTP/1.1” 200 OK
2024-12-09 09:54:34,763 httpx 7948 INFO HTTP Request: POST http://127.0.0.1:7861/knowledge_base/upload_docs “HTTP/1.1 200 OK”
2024-12-09 09:54:44.981 | INFO | chatchat.server.knowledge_base.utils:file2docs:336 - RapidOCRPPTLoader used for F:\chat-demo\data\knowledge_base\ddwr_network\content\大语言模型在石油生产企业环境保护标准中的应用_1732679338974.pptx
2024-12-09 09:54:44.983 | ERROR | chatchat.server.knowledge_base.utils:files2docs_in_thread_file2docs:419 - ModuleNotFoundError: 从文件 ddwr_network/大语言模型在石油生产企业环境保护标准中的应用_1732679338974.pptx 加载文档时出错:No module named ‘pptx’
2024-12-09 09:54:45.103 | INFO | chatchat.server.knowledge_base.kb_cache.faiss_cache:save:40 - 已将向量库 (‘ddwr_network’, ‘text2vec-large-chinese’) 保存到磁盘
INFO: 127.0.0.1:50312 - “POST /knowledge_base/upload_docs HTTP/1.1” 200 OK
2024-12-09 09:54:45,108 httpx 7948 INFO HTTP Request: POST http://127.0.0.1:7861/knowledge_base/upload_docs “HTTP/1.1 200 OK”
2024-12-09 09:54:59.837 | INFO | chatchat.server.knowledge_base.utils:file2docs:336 - RapidOCRPPTLoader used for F:\chat-demo\data\knowledge_base\ddwr_network\content\人工智能在油田安全生产标准化的应用与未来发展_1732679033476.pptx
2024-12-09 09:54:59.839 | ERROR | chatchat.server.knowledge_base.utils:files2docs_in_thread_file2docs:419 - ModuleNotFoundError: 从文件 ddwr_network/人工智能在油田安全生产标准化的应用与未来发展_1732679033476.pptx 加载文档时出错:No module named ‘pptx’
2024-12-09 09:54:59.939 | INFO | chatchat.server.knowledge_base.kb_cache.faiss_cache:save:40 - 已将向量库 (‘ddwr_network’, ‘text2vec-large-chinese’) 保存到磁盘
INFO: 127.0.0.1:50313 - “POST /knowledge_base/upload_docs HTTP/1.1” 200 OK
2024-12-09 09:54:59,944 httpx 7948 INFO HTTP Request: POST http://127.0.0.1:7861/knowledge_base/upload_docs “HTTP/1.1 200 OK”
2024-12-09 09:55:11.751 | INFO | chatchat.server.knowledge_base.utils:file2docs:336 - RapidOCRPPTLoader used for F:\chat-demo\data\knowledge_base\ddwr_network\content\虚拟化和云计算在工业企业中的应用和优点_1732595470879.pptx
2024-12-09 09:55:11.754 | ERROR | chatchat.server.knowledge_base.utils:files2docs_in_thread_file2docs:419 - ModuleNotFoundError: 从文件 ddwr_network/虚拟化和云计算在工业企业中的应用和优点_1732595470879.pptx 加载文档时出错:No module named ‘pptx’
2024-12-09 09:55:11.845 | INFO | chatchat.server.knowledge_base.kb_cache.faiss_cache:save:40 - 已将向量库 (‘ddwr_network’, ‘text2vec-large-chinese’) 保存到磁盘
INFO: 127.0.0.1:50314 - “POST /knowledge_base/upload_docs HTTP/1.1” 200 OK

原因分析:

提示:这里填写问题的分析:

检查langchain-chatchat中知识库的其他文件类型,上传后矢量化都正常,只有PPTX文件类型上传后矢量化出问题,针对这样的情况,怀疑是缺少PPTX文件类型的相关库,使用PIP LIST查看本地服务器conda环境下确实没有PPTX相关的库。


解决方案:

提示:这里填写该问题的具体解决方案:

执行pip install python-pptx,安装python的PPTX库,我这里安装的是Successfully installed XlsxWriter-3.2.0 python-pptx-1.0.2
然后通过chatchat start-a重新启动langchain-chatchat,重新上传相关的PPTX文件,文件矢量化和保存都正常,问题解决

你可能感兴趣的:(大语言模型及应用,langchain)