[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation

贝壳的家庭装修领域的垂类大模型。

1.introduction

ChatHome是一个专门为家装改造设计的语言模型,包括两个步骤:首先,使用涵盖专业文章、标准文件和网络内容的广泛家装改造数据集对通用模型进行预训练后调整;其次,使用家装改造为基础的提示生成的问题-回答对数据集实现指令调整策略。

2.related work

一个LLM的训练通常包括两个阶段:预训练和指令微调。通过在大规模语料库上进行预训练,LLM可以获得基本的语言理解和生成能力。指令微调阶段旨在使模型具有理解人类指令的能力,并且还可以提高模型在未见任务上的泛化能力。然而,领域特定的任务往往涉及复杂的概念、技术术语和实体之间的复杂关系。没有有针对性的指导,大型语言模型可能会严重产生幻觉。这是因为LLM旨在预测给定输入的最可能的单词序列,而不是根据结构化知识提供明确的答案。

        使用基于检索的插件知识库可以在不更新参数的情况下将LLM应用到专业领域,或可以选择通过更新参数将领域知识注入模型中。

        根据不同的训练阶段,LLM领域专业化训练方法可以大致分为以下几类:1.基于领域数据从头开始进行预训练,Bloomberggpt(金融领域大模型),这通常依赖于大量领域数据,训练成本高。2.直接基于领域指令数据进行微调,chatlaw,3.在基础LLM上进行领域预训练,然后进行指令微调,lawyer-llama(中文法律大模型)。

3.Data Collection

3.1 Pre-training

国家标准:装饰和建筑的国家标准。

专业图书:过去十年在房地产、家具翻新、装饰和建筑领域出版的图书。

专业网站:爬取了专业领域网站文章,包括30000篇关于家具翻新建议、家电购买技巧等文章。

通用语料库:wudao语料库。

数据预处理:上述数据经过统一的处理流程进行处理,包括文本提取、质量过滤和数据去重。在文本提取过程中,丢弃了图片、表格和网址无关的信息,只保留文本。在质量过滤时,通过敏感词过滤、语言过滤和有效文本长度过滤等方法确保每个数据可用。通过对文章和句子进行去重。从专业领域语料库中得到约26.6M个标记,从通用语料库中获得276.6M个标记。

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation_第1张图片

3.2 SFT Corpus

为了缓解领域偏差问题并提高模型在特定领域中的性能, 从高质量的家具装饰书籍和家具装饰网站文章中构建了约25k条指导数据,以帮助适应特定领域知识。

单轮对话:为了获得更多与家具装饰相关的问题,首先使用GPT4来模拟室内设计师和客户的双重角色,生成一些基于给定知识的问答对。

多轮对话:类似于单轮对话,GPT4模拟了室内设计师和客户的角色,此外,为了减轻幻觉,为GPT4提供了相关的文章,从而使其对话内容围绕这些提供的知识展开。基于单轮和多轮数据,生成了上述的词云。

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation_第2张图片

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation_第3张图片

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation_第4张图片

4.Experiments

4.1 baseline models

baichuan-13B-Base:130亿参数,1.4万亿token。

baichuan-13B-Chat

4.2 experiments setups

领域适应必然面临灾难性遗忘的问题,解决这个问题的一种直接方法是基于回顾的策略,其中包括回顾和重新学习先前获得的知识,考虑到大语言模型是在广泛的通用数据集上预训练,因此在领域适应过程中实现通用数据和领域特定数据的平衡非常重要。

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation_第5张图片

PT和SFT阶段唯一训练的超参数差异在于最大长度,其中PT是1024,SFT是1536。

4.3 Metrics

评估包括两个部分:通用能力评估和领域能力评估。通用能力采用了C-Eval和CMMLU两个基准测试。领域评估,构建了一个EvalHome,所有问题均为多项选择题格式,总共113道题。

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation_第6张图片

4.4 Results and analysis

数据比例结果分析:

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation_第7张图片

领域特定数据和通用数据之间的比例分别是1:0,1:1,1:2,1:5,1:10,比例1:0表示仅使用领域特定数据,而不包含任何通用数据。baichuan-13b-base-DAPT(1:5)

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation_第8张图片

两个实验都表明:当前基准模型和家庭装修领域数据在1:5的数据比例下获得最佳性能。在指令精调阶段,随着更多的通用指令数据的添加,模型在通用能力评估集上的分数降低。

领域使用结果分析:

上表中经过领域和通用数据PT的模型baichuan-13B-base-DAPT(1:0)和baichuan-13b-base-DAPT(1:5)分别取得了59.29和55.75,比未进过DAPT的baichuan-13b-base的53.98好,然而当使用baichuan-13b-chat进行指令精调,得到了60.17,可能是基准模型在预训练过程中已经包含了大量的装修数据。

在预训练过程中整合下游监督数据,在PT阶段整合下游指令数据,MIP:多任务指令预训练,前面是领域数据和通用数据之间的比例实验,MIP是预训练数据和指令数据之间的混合训练,在MIP阶段,训练数据仅包含领域预训练数据和领域指令数据,没有添加通用数据得到了69.03分。

你可能感兴趣的:(大模型,多模态和生成,BELLE,chatgpt)