大语言模型

前言:

        Open AI推出Chat GPT后,风靡全球。AI的强大表现让人折服,带来的商业效应已经逐渐扩散开来。随着人工智能越来越强,未来人们的生活受到影响也会越来越广泛。

        继 OpenAI 推出 ChatGPT 后,微软迅速上线基于 GPT 模型的 New Bing、Microsoft 365 Copilot、GitHub Copilot X 等产品。

        谷歌也推出类似 ChatGPT 的 AI 应用,亚马逊、百度、阿里巴巴、腾讯、华为、京东、网易、科大讯飞等企业也积极表示要布局相关的研究、开发和应用。

        目前国产GPT有最先发布的百度文心一言,继而阿里的通义千问,商汤的商量,以及最近开放测试的科大讯飞星火认知大模型、360 GPT 大模型产品矩阵“360 智脑”,昆仑天工3.5,知乎知海图Ai,此外还有华为盘古大模型。

        背后,就是GPT这个大模型在发挥作用(Generative Pre-trained Transformer),翻译为“基于Transformer的生成式预训练模型”(引号里的中文值得逐字理解),通俗点讲,这个模型的目的就是理解用户所输入的文字,然后计算答案,然后用用户能懂的语言进行呈现。

术语

  • NLP:Natural Language Processing(自然语言处理)
  • LLM:Large Language Modle(大语言模型)
  • AGI:General Artificial Intelligence(通用人工智能)
  • AIGC:AI-generated content(人工智能生产内容,后续文章详解)

关键技术点

1.Transformer

大语言模型_第1张图片

        Transformer是一个利用注意力机制来提高模型训练速度的模型。

        可以简单理解为它是一个黑盒子,当在做文本翻译任务时,输入进去一个中文,经过这个黑盒子之后,输出来翻译过后的英文。

        也可以理解为一个特征提取器,中文语义:转换器,目的就是把给他的文本数据进行理解学习,形成他认为的人类语法。

        Transformer的核心是自注意力机制(self-attention),它可以让模型在处理序列数据时,将不同位置的信息加权组合起来,从而更好地理解输入序列的结构和含义。这其中的核心手段是编码和解码,即Encoder和Decoder。

        Encoder把输入文本编码成一系列向量,Decoder则将这些向量逐一解码成输出文本。在每一个Encoder和Decoder中,有多个自注意力层和前馈神经网络层组成。这些层通过不断传递信息和调整参数,最终将输入转化为一个意义准确的输出。

大语言模型_第2张图片

                                                                Transformer 模型架构

2. MLM(Masked Language Modeling)

        大多数现代的NLP系统都遵循一种非常标准的方法训练各种用例的新模型,即先训练后微调。在这里,预处理训练的目标是利用大量未标记的文本,在对各种特定的自然语言处理任务(如机器翻译、文本摘要等)进行微调之前,建立一个通用的语言理解模型。

        MLM(掩码语言模型)是 GPT 预训练中的一个关键技术点,其目的是通过对输入序列中的部分单词进行遮盖,使模型在预测下一个单词时能够学习到上下文的信息。

大语言模型_第3张图片

        在MLM中,模型会在输入的文本序列中随机选择一些单词,并将其替换为特殊的MASK标记。模型的任务是预测这些MASK标记所代表的单词是什么。因为模型只能观察到MASK标记周围的文本,因此它需要对上下文进行建模,以便正确地预测MASK标记所代表的单词。Transformer、MLM等等这些架构、算法和模型设计让GPT问世,而Prompt和Fine-tune可以让我们能更好地使用他。

3. Prompt

        中文语义:提问、提示语。在与ChatGPT对话时,输入即为prompt,想要让GPT更好地理解我们的意图,那prompt的精度就决定这个大模型能否高效理解我们的意图。

        Prompt是一种输入方式,它将人工智能模型的输入限制在一个特定的范围内,从而更好地控制模型的输出。在ChatGPT模型中,Prompting技术可用于对模型进行微调和优化,从而使其更适合某些特定的任务。

        例如,在生成一篇介绍人工智能的文章时,可以使用Prompt:

        “请根据以下内容介绍人工智能:人工智能是一种模拟人类智能的技术,它包括机器学习、自然语言处理、计算机视觉等领域。请在文章中简要介绍人工智能的定义、历史、应用场景和未来发展方向。”

        这个Prompt可以指导模型生成一篇简要介绍人工智能的文章,其中包括人工智能的定义、历史、应用场景和未来发展方向。

大语言模型_第4张图片

4. Fine-tune

        中文语义:微调。企业在应用AI能力时,GPT可以定义为一个理解自然语言的初始模型,为更好地应用在业务场景中,可以在GPT的基础上进行微调,理解为一个有监督学习的过程,输入业务数据或领域数据集,让它能读懂业务数据并按需输出。

大语言模型_第5张图片

前景

        在未来,随着大语言模型技术的不断发展和普及,它将为软件产品带来更加智能化、精准化和个性化的服务,并推动软件产品向更高水平的发展。

        同时,由于人们对隐私和数据安全的关注不断增加,如何在大语言模型的应用过程中保护用户隐私和数据安全,也将成为一个重要的话题和挑战。

        后续介绍具体的使用方式及业务场景。

你可能感兴趣的:(语言模型,人工智能,自然语言处理)