【动手学大模型】第一章 大模型简介

动手学大模型

第一章 大模型简述

语言建模最早使用统计学习的方法,通过前面的词汇来预测下一个词汇。其在理解复杂语言规则方面存在一定局限性。

之后引入了深度学习的思想,使用神经网络模型来更好的捕捉语言中的复杂关系。

随着Transformer架构的神经网络模型引入,通过大量的文本数据训练,模型可以深入理解语言规则和模式。同时研究人员发现,随着语言模型规模的扩大,比如增加模型大小和使用更多的训练数据,模型展现出了惊人的能力,也就是大语言模型时代。

大语言模型的概念

大语言模型,LLM,是一种人工智能模型,旨在理解和生成人类语言。
LLM通常包含数百亿参数,模型会在大量的文本数据上训练。

为了探索性能的极限,许多研究人员开始训练越来越庞大的语言模型 ,例如拥有 1750 亿参数的 GPT-3 和 5400 亿参数的 PaLM 。尽管这些大型语言模型与小型语言模型(例如 BERT 的 3.3 亿参数和 GPT-2 的 15 亿参数)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为涌现能力。以 GPT-3 和 GPT-2 为例,GPT-3 可以通过学习上下文来解决少样本任务,而 GPT-2 在这方面表现较差。因此,研究界给这些庞大的语言模型起了个名字,称之为“大语言模型(LLM)”。而 LLM 的一个杰出应用就是 ChatGPT ,它是 GPT 系列 LLM 用于与人类对话式应用的大胆尝试,展现出了非常流畅和自然的表现。

在自然语言处理领域,LLM可以帮助计算机更好的理解和生成文本,包括写文章、回答问题、翻译语言等。在信息检索领域,它可以改进搜索引擎,可以更轻松地找到所需的信息。在计算机视觉领域,研究人员努力让它理解图像和文字,以改善多媒体交互。

LLM的出现使通用人工智能成为可能,AGI 是一种像人类一样思考和学习的人工智能。LLM 被认为是 AGI 的一种早期形式,这引发了对未来人工智能发展的许多思考和计划。

大模型的能力和特点

  1. 涌现能力
    区分大语言模型和之前的预训练语言模型的最显著特征之一是它们的涌现能力
    涌现能力是指模型性能随着规模扩大而迅速增加,超过了随机水平。三个典型的涌现能力有:
  • 上下文学习能力:语言模型在提供自然语言指令或多个任务示例的情况下,通过理解上下文并生成相应输出的方式来执行任务。
  • 指令遵循:通过使用自然语言描述的多任务数据进行微调,也就是所谓的指令微调,LLM 被证明在同样使用指令形式化描述的未见过的任务上表现良好。这意味着LLM能够根据任务指令执行任务,而无需事先见过具体示例,这展示了其强大的泛化能力
    -逐步推理: 小型语言模型通常难以解决涉及多个推理步骤的复杂任务,例如数学问题。然而,LLM通过采用"思维链"推理策略,可以利用包含中间推理步骤的提示机制来解决这些任务,从而得出最终答案。据推测,这种能力可能是通过对代码的训练获得的。
  1. 作为基座模型支持多元应用的能力
    基座模型(foundation model)的概念,这更清晰地描述了之前学界所称的预训练模型的作用。这是一种全新的AI技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态)。这样,多个应用可以只依赖于一个或少数几个大模型进行统一建设

  2. 支持对话作为统一入口的能力

2.大模型的特点

大语言模型(LLM,Large Language Models)具有多种显著特点,这些特点使它们在自然语言处理和其他领域中引起了广泛的兴趣和研究。以下是大语言模型的一些主要特点:

  • 巨大的规模: LLM通常具有巨大的参数规模,可以达到数十亿甚至数千亿个参数。这使得它们能够捕捉更多的语言知识和复杂的语法结构。

  • 预训练和微调: LLM采用了预训练和微调的学习方法。它们首先在大规模文本数据上进行预训练(无标签数据),学会了通用的语言表示和知识,然后通过微调(有标签数据)适应特定任务,从而在各种NLP任务中表现出色。

  • 上下文感知: LLM在处理文本时具有强大的上下文感知能力,能够理解和生成依赖于前文的文本内容。这使得它们在对话、文章生成和情境理解方面表现出色。

  • 多语言支持: LLM可以用于多种语言,不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。

  • 多模态支持: 一些LLM已经扩展到支持多模态数据,包括文本、图像和声音。这意味着它们可以理解和生成不同媒体类型的内容,实现更多样化的应用。

  • 涌现能力: LLM表现出令人惊讶的涌现能力,即在大规模模型中出现但在小型模型中不明显的性能提升。这使得它们能够处理更复杂的任务和问题。

  • 多领域应用: LLM已经被广泛应用于文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等多个领域,对人们的日常生活和工作产生了深远的影响。

  • 伦理和风险问题: 尽管LLM具有出色的能力,但它们也引发了伦理和风险问题,包括生成有害内容、隐私问题、认知偏差等。因此,研究和应用LLM需要谨慎。

常见大模型

  1. GPT
    典型的生成式预训练语言模型之一。
    GPT 模型的基本原则是通过语言建模将世界知识压缩到仅解码器的 Transformer 模型中,这样它就可以恢复(或记忆)世界知识的语义,并充当通用任务求解器。它能够成功的两个关键点:
  • 训练能够准确预测下一个单词的仅解码器的 Transformer 语言模型
  • 扩展语言模型的大小。
  1. Claude
    该系列模型通过无监督预训练、基于人类反馈的强化学习和 Constitutional AI 技术(包含监督训练和强化学习)进行训练,旨在改进模型的有用性、诚实性和无害性。

  2. PaLM
    PaLM 基于 Google 提出的 Pathways 机器学习系统搭建,训练数据总量达 780B 个字符,内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。

  3. 文心一言
    2023 年 8 月 31 日,文心一言率先向全社会全面开放,提供 APP、网页版、API 接口等多种形式的开放服务。文心一言一方面采用有监督精调、人类反馈的强化学习、提示等技术,还具备知识增强、检索增强和对话增强等关键技术。当前,以文心一言为代表的大模型已经逐步赶超国外最优水平。文心一言基于飞桨深度学习框架进行训练,算法与框架的协同优化后效果和效率都得到提升,模型训练速度达到优化前的 3 倍,推理速度达到优化前的 30 多倍。文心一言还建设了插件机制,通过外部工具、服务的调用,拓展大模型的能力的边界。

langchain

许多开发者希望利用OpenAI提供的API或者私有化模型,来开发基于大语言模型的应用程序。尽管大语言模型的调用相对简单,但要创建完整的应用程序仍需要大量的定制开发工作,包括API集成、互动逻辑、数据存储等。
LangChain框架是一个开源工具,充分利用了大语言模型的强大能力,以便开发各种下游应用,旨在帮助开发者快速构建基于大语言模型的端到端应用程序或者工作流程。

langchain 核心组件

LangChian 作为一个大语言模型开发框架,可以将 LLM 模型(对话模型、embedding模型等)、向量数据库、交互层 Prompt、外部知识、外部代理工具整合到一起,进而可以自由构建 LLM 应用。 LangChain 主要由以下 6 个核心模块组成:

  • 模型输入/输出(Model I/O):与语言模型交互的接口
  • 数据连接(Data connection):与特定应用程序的数据进行交互的接口
  • 链(Chains):将组件组合实现端到端应用。
  • 记忆(Memory):用于链的多次运行之间持久化应用程序状态;
  • 代理(Agents):扩展模型的推理能力。用于复杂的应用的调用序列;
  • 回调(Callbacks):扩展模型的推理能力。用于复杂的应用的调用序列;

你可能感兴趣的:(大模型开发,ai)