NLP领域大语言模型汇总

目录

 1、OpenAI

ChatGPT

GPT4

2、清华大语言模型

GLM-130B 千亿基座模型

3、Meta-LLaMA

LLaMA

4、百度

文心一言

5、Google

PaLM API 

PaLM-E 562B

6、斯坦福-Stanford Alpaca及其相关开源模型

Stanford Alpaca

BELLE: BE Large Language model Engine

7、微软-KOSMOS-1


 1、OpenAI

ChatGPT

       ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流。ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

官网地址: Introducing ChatGPT

GPT4

        GPT-4.0是GPT系列模型的最新版本,它是由OpenAI公司开发的。GPT-4.0使用了比GPT-3.0更大的语料库来训练模型,它可以预测下一个单词或句子的概率,并且可以生成非常逼真和自然的文本。GPT-4.0的性能比GPT-3.0要好得多,它可以生成更加复杂和高质量的文本。

        GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;能够处理超过25000个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。

2、清华大语言模型

GLM-130B 千亿基座模型

        ChatGLM 参考了 ChatGPT 的设计思路,在千亿基座模型 GLM-130B1 中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类意图对齐。ChatGLM 当前版本模型的能力提升主要来源于独特的千亿基座模型 GLM-130B。它是不同于 BERT、GPT-3 以及 T5 的架构,是一个包含多目标函数的自回归预训练模型。2022年8月,我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型 GLM-130B1,该模型有一些独特的优势:

  • 双语: 同时支持中文和英文。
  • 高精度(英文): 在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B。
  • 高精度(中文): 在7个零样本 CLUE 数据集和5个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B。
  • 快速推理: 首个实现 INT4 量化的千亿模型,支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理。
  • 可复现性: 所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数复现。
  • 跨平台: 支持在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。

论文: 《GLM-130B: An Open Bilingual Pre-Trained Model》

ChatGLM-6B

        中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源GLM-130B千亿基座模型之后,智谱再次推出大模型方向的研究成果。与此同时,基于千亿基座模型的ChatGLM也同期推出,初具问答和对话功能。该模型基于 General Language Model (GLM) 架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。

        ChatGLM-6B 具备以下特点:

  • 充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。

  • 优化的模型架构和大小:吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统 FFN 结构。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。

  • 较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8)和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。

  • 更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。

  • 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(RLHF)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。

hatGLM-6B 也有相当多已知的局限和不足:

  • 模型容量较小: 6B 的小容量,决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息;她也不擅长逻辑类问题(如数学、编程)的解答。

  • 可能会产生有害说明或有偏见的内容: ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。

  • 较弱的多轮对话能力: ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成,以及多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。

  • 英文能力不足: 训练时使用的指示大部分都是中文的,只有一小部分指示是英文的。因此在使用英文指示时,回复的质量可能不如中文指示的回复,甚至与中文指示下的回复矛盾。

  • 易被误导: ChatGLM-6B 的“自我认知”可能存在问题,很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下,会在自我认知上发生偏差。即使该模型经过了 1 万亿标识符(token)左右的双语预训练,并且进行了指令微调和人类反馈强化学习(RLHF),但是因为模型容量较小,所以在某些指示下可能会产生有误导性的内容。

开源地址: GitHub - THUDM/ChatGLM-6B: ChatGLM-6B:开源双语对话语言模型 | An Open Bilingual Dialogue Language Modelxx

相关链接:ChatGLM

3、Meta-LLaMA

LLaMA

        Meta公开发布了一款全新的大型语言模型LLaMA(时尚和高效的基础语言模型),共有7B、13B、33B、65B四种版本,上述所有版本均已开源。

LLaMA的工作原理

与其他通用大型语言模型一样,LLaMA 的工作原理是输入将一系列单词作为输入并预测下一个单词以递归生成文本。

LLaMA模型的参数

        近来的研究表明,对于给定的计算预算,最佳性能不是由最大的模型实现的,而是由基于更多数据训练的更小的模型实现的。换句话说,较小的模型规模加上比较大的数据集,获得的性能可能会比更大规模模型的要好很多。

 相关论文: 《LLaMA: Open and Efficient Foundation Language Models》

开源地址: GitHub - facebookresearch/llama: Inference code for LLaMA models

4、百度

文心一言

       文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特点。

        百度创始人、董事长兼首席执行官李彦宏展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成5个使用场景中的综合能力。

它具有以下5个优点:

  • 智能化:百度文心一言采用人工智能技术,可以根据用户输入的关键词和主题,自动分析并生成相关的文章段落。
  • 精准度高:百度文心一言的算法不断优化,可以根据用户的需求和输入,精准生成符合用户要求的文章段落。
  • 多样性:百度文心一言支持多种文章类型和风格,包括新闻、评论、科技、文化等不同领域,用户可以根据自己的需求选择适合自己的文章类型和风格。
  • 方便易用:百度文心一言界面简洁明了,操作简单易懂,用户只需要输入关键词和主题,就可以轻松生成高质量的文章。
  • 时间节省:使用百度文心一言可以大大节省写作时间,用户只需要输入关键词和主题,就可以快速生成高质量的文章,提高写作效率。

5、Google

PaLM API 

        在 2023 年 3 月 14 日,Google 宣布开放 PaLM API,让开发者可以轻松地使用 Google 的大语言模型 PaLM 来实现各种应用。PaLM API 是 Google 大型语言模型的入口,可用于各种应用程序。PaLM API 提供了以下几个主要特点和优势:

  • 简单易用:开发者只需要通过一个简单的 HTTP 请求,就可以调用 PaLM API 来执行各种基于文本的任务,如生成、摘要、分类、问答、聊天等。PaLM API 还提供了一个名为 MakerSuite 的工具,让开发者可以快速地进行原型设计和测试。

  • 安全可控:Google 在设计 PaLM API 时,考虑了大语言模型可能带来的安全和伦理问题,比如数据隐私、内容质量、偏见和歧视等。因此,PaLM API 提供了一系列的机制和功能,来保护用户的数据和权益,以及提高模型的可靠性和透明度。例如,PaLM API 支持用户自定义过滤器来屏蔽不合适或不相关的内容;PaLM API 还支持用户提供反馈来改进模型的表现;PaLM API 还提供了一些指标和报告来展示模型的性能和影响。

  • 灵活多样:Google 在开放 PaLM API 时,并没有限制开发者使用 PaLM 的方式和场景。相反,Google 鼓励开发者利用 PaLM 的强大能力来创造各种有价值和有意义的应用。例如,PaLM 可以用于提升 Gmail 和 Docs 等 Google 自己的产品;PaLM 也可以用于支持教育、医疗、媒体等各个领域;PaLM 还可以用于娱乐、创作、社交等方面。

PaLM-E 562B

        3 月 6 日,Robotics at Google、柏林工业大学和 Google Research 团队提出了一个具身多模态语言模型 PaLM-E,该模型可以直接将现实世界的连续传感器模式纳入已经预训练好的 LLM 中,在单词和感知(words and percepts)之间建立联系,从而用于连续的机器人操作规划、视觉问题回答和字幕生成等多项具身任务中。

论文:《PaLM-E: An Embodied Multimodal Language Model》

开源地址:PaLM-E: An Embodied Multimodal Language Model

6、斯坦福-Stanford Alpaca及其相关开源模型

Stanford Alpaca

        斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该研究让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为 Alpaca 的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。

开源地址:GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data.

相关链接:

 1) Stanford CRFM

2) Stanford Alpaca (羊驼):ChatGPT 学术版开源实现 - 知乎

BELLE: BE Large Language model Engine

        开源中文对话大模型70 亿参数的 BELLE(Bloom-Enhanced Large Language model Engine)来了。它基于斯坦福的 Alpaca 完成,但进行了中文优化,并对生成代码进行了一些修改,不仅如此,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据)。

开源地址: https://github.com/LianjiaTech/BELLE

Hugging Face 地址: BelleGroup (BELLE Group)

7、微软-KOSMOS-1

        KOSMOS-1是一个多模态大型语言模型​​。​​​​​KOSMOS-1 模型原生支持零样本和少样本学习设置下的语言、感知语言与视觉任务。除了各种自然语言任务,KOSMOS-1 模型能够原生处理广泛的感知密集型任务,如视觉对话、视觉解释、视觉问答、图像描述生成、简单的数学公式、OCR 和带描述的零样本图像分类。

论文:《Language Is Not All You Need: Aligning Perception with Language Models》

开源地址:GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

相关链接:从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力_zenRRan的博客-CSDN博客

你可能感兴趣的:(自然语言处理,自然语言处理,语言模型,人工智能)