Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models

本文是LLM系列文章,针对《Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models》的翻译。

Jais and Jais-chat:以阿拉伯语为中心的基础和教学调优的开放生成大型语言模型

  • 摘要
  • 1 引言
  • 2 预训练数据
  • 3 模型
  • 4 指令调整
  • 5 评估
  • 6 安全性
  • 7 相关工作
  • 8 结论

摘要

我们介绍了Jais和Jais chat,新的最先进的以阿拉伯语为中心的基础和基于指令的开放生成大型语言模型(LLM)。这些模型基于仅GPT-3解码器的架构,并在阿拉伯语和英语文本的混合上进行预训练,包括各种编程语言的源代码。基于广泛的评估,它们拥有130亿个参数,在阿拉伯语中表现出比任何现有的开放阿拉伯语和多语言模型都更好的知识和推理能力。此外,尽管使用的英语数据少得多,但与类似规模的以英语为中心的开放模型相比,这些模型在英语方面具有竞争力。我们对模型的训练、调整、安全校准和评估进行了详细描述。我们发布了该模型的两个开放版本——基础Jais模型和一个经过指令调整的Jais聊天变体——目的是促进对阿拉伯语LLM的研究。

1 引言

2 预训练数据

3 模型

4 指令调整

5 评估

6 安全性

7 相关工作

8 结论

我们介绍了Jais,一种新的最先进的阿拉伯语-英语双语大型语言模型(LLM),以及它的指令调整变体Jais chat。后者可以用阿拉伯语和英语执行广泛的生成和下游语言任务,从常识推理到自然语言理解任务,如情绪分析、讽刺检测和仇恨言论检测。它经过预训练和微调的能力优于所有已知的开源阿拉伯语模型,与在更大数据集上训练的最先进的开源英语模型相当。我们鼓励研究人员、业余爱好者和企业开发人员在我们的模型上进行实验和开发,特别是那些致力于多语言和/或非英语应用程序的人。
Jais代表了NLP和人工智能在中东地区的重要演变和扩展。这种诞生于阿联酋的第一种阿拉伯模式代表着政府和商业组织迈向数字革命的重要战略步骤。通过促进阿拉伯语的理解和生成,为当地玩家提供主权和私人部署选项,并培育一个充满活力的应用和创新生态系统,这项工作支持了数字和人工智能转型的更广泛战略举措,以迎来一个开放、更具语言包容性和文化意识的时代。

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理)