llm with vector db

KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering

大型语言模型(LLM)在广泛的自然语言任务中表现出了非凡的性能。然而,随着这些模型的规模不断扩大,它们在计算成本方面面临着重大挑战。此外,LLM通常缺乏对特定领域的有效理解,这在航空和医疗保健等专业领域尤为重要。为了促进对特定领域的理解,我们提出了KITLM,这是一种通过相关信息注入将知识库集成到语言模型中的新方法。通过集成相关知识,不仅大大提高了语言模型的性能,而且在实现可比性能的同时,还大大降低了对模型大小的要求。我们提出的知识注入模型的性能超过了GPT-3.5-turbo和最先进的知识注入方法SKILL,在MetaQA上的精确匹配分数提高了1.5倍以上。KITLM在航空领域表现出与AeroQA类似的性能提升。与现有方法相比,KITLM的性能有了显著提高,这可归因于在降低噪声的同时注入了相关知识。此外,我们发布了两个精心策划的数据集,以加速专业领域的知识注入研究:a)AeroQA,一个新的基准数据集,专为航空领域的多跳问答而设计;b)aviation Corpus,一个由国家运输安全委员会报告中提取的非结构化文本构建的数据集。我们的研究有助于推进特定领域的语言理解领域,并展示了知识注入技术在提高语言模型在问答中的性能方面的潜力。

https://zhuanlan.zhihu.com/p/655272123

DISC-Med-SFT
https://github.com/WangRongsheng/CareGPT
https://github.com/PKU-YuanGroup/ChatLaw

针对特定垂直领域的问答数据集可以为特定行业或主题的语言模型训练提供深度和精确性。以下是一些不同垂直领域的问答数据集:

https://github.com/luban-agi/Awesome-Domain-LLM
llamaindex with local llm
https://docs.llamaindex.ai/en/v0.8.38/core_modules/model_modules/llms/usage_custom.html

医疗和生物医学:
    BioASQ: 面向生物医学领域的问答数据集,包含了一系列专业的医疗问题及其答案。
    MEDIQA: 专注于医疗信息检索和问答,包含来自真实医疗环境的问题和答案。
    cMedQQ

法律:
    LegalQA: 法律领域的问答数据集,包含法律相关的问题和答案,适用于训练专业的法律咨询系统。
    COLIEE (Competition on Legal Information Extraction/Entailment): 提供法律案例和法规相关的问答对。

金融经济:
    FiQA: 金融投资领域的问答数据集,包含了与投资相关的问题和答案。
    ECONOMICS QA: 集中在经济学领域的问答,涵盖经济政策、市场趋势等相关问题。

技术和IT:
    StackExchange QA: 包含了StackExchange网络上各种技术和IT相关论坛(如Stack Overflow)的问题和答案。
    Microsoft AI Challenge: 一个技术领域的问答数据集,主要由来自Bing搜索引擎的用户查询构成。

教育:
    SciQ: 针对科学教育的问答数据集,包含中学水平的科学问题和答案。
    RACE: 包含了中小学英语考试中的阅读理解部分,每篇阅读材料后面都跟着几个问题和多个选择答案。

每个数据集都针对其特定的领域设计,可以帮助构建更加专业和准确的问答系统。在使用这些数据集时,请确保遵守相关的使用条款和隐私政策。

你可能感兴趣的:(人工智能)