大模型--个人学习心得

大模型LLM定义

大模型LLM,全称Large Language Model,即大型语言模型
LLM是一种基于Transformer架构模型,
它通过驯良大量文本数据,学习语言的语法、语义和上下文信息,
从而能够对自然语言文本进行建模
这种模型在自然语言处理(NLP)领域具有广泛应用


常见的13个大模型

BERT、GPT系列、T5、Meta的Llama系列、华为盘古模型、阿里巴巴通义大模型、
科大讯飞 星火大模型、百度文心大模型、字节跳动云雀大模型、腾讯混元大模型
京东言犀大模型、商汤日日新大模型、搜狗百川智能

BERT:开启Transformer模型在NLP领域的革命,通过双向上下文预训练,极大提升了语言理解任务的表现
GPT系列:
(1)GPT:原始的GPT模型展示生成式预训练的有效性
(2)GPT-2:比初代 规模更大,生成文本的能力更强
(3)GPT-3:非常大的语言模型,展示了在大量数据上进行预训练可以实现零样本和少样本学习的强大能力
T5:旨在统一多种文本处理任务,通过将所有任务视为文本到文本的转换问题来简化训练过程
Meta的Llama系列:Llama是Meta AI推出的一系列大型语言模型,旨在提供高效的自然语言处理能力
华为盘古模型:CV+NLP+多模态+预测+科学计算 (5大基础模型),可实现文本生成、图片生成、代码生成、图片理解、气象预测、智能助手打造的多种功能
阿里巴巴通义大模型:覆盖语言、听觉、多模态等领域,致力于实现接近人类智慧的通用智能
科大讯飞 星火大模型:拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务
百度文心大模型:已实现AI应用场景全覆盖,包括NLP、CV、跨模态、生物计算与行业大模型
字节跳动云雀大模型:基于云雀大模型开发了一款生成式AI助手"豆包",可以实现
智能问答、文本生成、自动写作、语言合成等多种功能
腾讯混元大模型:涵盖NLP、CV、多模态、文生图等大模型,对内已和腾讯广告、微信、QQ、游戏等产品实现协同,并通过腾讯云对外商业化。
京东言犀大模型:主要聚焦于文本、语音、对话和数字人生成等4个方面开展工作。
商汤日日新大模型:已建立了全栈的大模型研发体系,并已在多个行业场景中落地。
搜狗百川智能:争取在年内发布国内最好的大模型和颠覆性的产品。

大模型按技术分类

三类:
Encoder-Only技术(最早的BERT模型)、
Encoder-Decoder技术(T5)、
Decoder-Only模型
(最繁荣发展的一类transformer模型,最早是GPT-1提出,此后包括Meta AI 、百度、Google、 Open AI、 Eleuthera AI等公司都提出了这种架构的模型)

大模型特点


五大特点:巨大的规模、涌现能力、更好的性能和泛化能力、多任务学习、幻觉、复读机问题

巨大的规模:参数数十亿,模型大小大于数百GB,促使大模型具有强大的表达能力和学习能力

涌现能力:涌现是一种现象,
许多小实体相互作用后产生大实体,大实体展现了其组成部分所不具有的特性
定义:引申到模型层面,涌现能力是指当模型训练数据达到一定规模,模型突然涌现组成部分没有的、意料之外且能够综合分析和解决更深层次问题的复杂能力和特性,展现出类似于人类的思维和智能
涌现能力也是大模型最显著的特点之一

更好的性能和泛化能力:大模型通常具有更强大的学习能力和泛化能力,任务表现出色(自然语言处理、图像识别、语言识别等)

多任务学习:大模型通常会一起学习多种不同的NLP任务(机器翻译、文本摘要、问答系统等)
这可以是模型学习到更广泛的泛化的语言理解能力

幻觉:
定义:大模型在面对默写输入时,产生不准确、不完整或误导性的输出
使用人类反馈强化学习和检索增强 是当前 解决大模型幻觉问题 两个重要的技术方向

复读机问题:
定义:大型语言模型(LLMS)在生成问题时出现的一种现象,即模型倾向于无限的复制输入文本或以过度频繁的方式重复相同的句子或短语
这种现象使得模型的输出缺乏多样性和创造性,给用户带来了不好的体验

涌现能力原因

大模型的涌现能力是由数据量的增加、计算能力的提升、模型架构的改进以及预训练和微调等因素共同作用的结果,这使得大模型能够更好的理解和生成文本,为自然语言处理领域带来了显著进展:

(1)数据量的增加:随着互联网的发展和数字化信息的爆炸增长,可用于训练模型的数据量大大增加
更多的数据可以提供更丰富、更广泛的语言知识和语境,使得模型能够更好的理解和生成文本。

(2) 计算能力的提升:随着计算硬件的发展,特别是图形处理器(GPU)和专用的AI芯片(如TPU)出现,计算能力大幅提升
这使得训练更大、更复杂的模型成为可能,从而提高了模型的性能和涌现能力

(3) 模型架构的改进:近年来,一些新的模型架构被引入,如Transformer,它在处理序列数据上表现出色
这些新的架构通过引入自注意力机制等技术,使得模型能够更好的捕捉长距离的依赖关系和语言结构,提高了模型的表达能力和生成能力

(4) 预训练和微调的方法:预训练和微调是一种有效的训练策略,可以在大规模无标签数据上进行预训练,然后在特定任务上进行微调
这种方法可以使模型从大规模数据中学习到更丰富的语言知识和语义理解,从而提高模型的涌现能力

幻觉问题的 主要分类、解决办法

幻觉问题主要分为两大类:
(1) 生成结果与数据源不一致,自相矛盾
可能是训练数据与源数据不一致数据没对齐或者编码器理解能力的缺陷和解码器策略错误可能导致幻觉

(2) 用户问题超出大模型认知
用户问题不在语言模型认知范围内

解决办法:可以引入外挂知识库,加入一些纠偏规则,限制输出长度等方式解决

复读机问题的 出现原因、解决办法

复读机问题出现原因:

(1) 数据偏差:大型语言模型通常是通过预训练阶段使用大规模无标签数据进行训练
如果训练数据中 存在大量重复文本/存在某些特定句子/短语出现频率较高,模型在生成文本时可能会倾向于复制这些常见模式

(2) 训练目标的限制:大型语言模型的训练通常基于自监督学习的方法,通过预测 下一个词/掩盖词 来学习语言模型
这样的训练目标可能使得模型更倾向于生成与输入相似文本

(3) 缺乏多样性的训练数据:如果训练数据中缺乏多样性的语言表达和语境,模型可能无法学习到足够的多样性和创造性

采取策略:

(1) 多样性训练数据:在训练阶段,尽量使用多样性的语料库来训练模型,避免数据偏差和重复文本的问题

(2) 引入噪声:在生成文本时,可以引入一些随机性或噪声
(通过 采样不同的词或短语/引入随机的变换操作 以增加生成文本的多样性)

(3)温度参数调整:通过调整温度参数的值,可以控制生成文本的独创性和多样性,从而减少复读机问题的出现
(温度参数定义:控制生成文本的多样性)

(4)后处理和过滤:对生成的文本进行后处理和过滤,去除重复的句子或短语,以提高生成文本的质量和多样性。

大模型输入句子长度受限原因

原因:
(1) 受限于计算资源
(2) 训练阶段长句子会导致梯度消失或者梯度爆炸
(因为它依赖前面的词进行 最大似然估计 作为 损失函数,这个 最大似然估计 化简一下就是 连乘 的形式,容易造成梯度消失/梯度爆炸)
(3) 推理阶段会增加预测错误率

大模型如何处理更长文本

(1) 分块处理,同时重叠保证连贯性
(2) 增加模型参数量,复杂化模型结构,提高对更长文本的捕捉与表达能力

你可能感兴趣的:(人工智能)