一文速览Llama 3及其微调:从如何把长度扩展到100万到如何微调Llama3 8B_llama3 微调 mysql 数据_llama3 代码很短

前言

4.19日凌晨正准备睡觉时,突然审稿项目组的文弱同学说:Meta发布Llama 3系列大语言模型了

一查,还真是

本文以大模型开发者的视角,基于Meta官方博客的介绍:Introducing Meta Llama 3: The most capable openly available LLM to date,帮你迅速梳理下LLama的关键特征,并对比上一个版本的LLama2,且本文后续,将更新用我司paper-review数据集微调llama3的训练过程

排Meta发布Llama 3:所有大模型开发者的福音
1.1 Llama 3的性能

1.1.1 在多个榜单上超越Google的gemma 7B、Mistral 7B

此次发布的Llama 3有两个版本:8B 和 70B。由于预训练和指令微调的加强,模型在推理、代码生成和指令跟踪等方面的能力得到比较大的提高,最终在多个榜单上超越Google的gemma 7B、Mistral 7B(当然了,我还是得说一句,榜单肯定能够说明一些东西,但不代表全部)一文速览Llama 3及其微调:从如何把长度扩展到100万到如何微调Llama3 8B_llama3 微调 mysql 数据_llama3 代码很短_第1张图片

1.1.2 一套专门的评估数据集:1800个prompt 涵盖12类任务

为了更好的评估llama3的性能,Meta开发了一套新的高质量人类评估集。该评估集包含 1,800 个prompt,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结

且为了防止模型在此评估集上过度拟合,即使Meta的建模团队也无法访问它(说白了,保证评估数据集中的数据不被模型事先学到)

下图显示了Meta针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果(compared to competing models of comparable size in real-world scenarios,即PK的开源模型也都是70B左右的大小)

一文速览Llama 3及其微调:从如何把长度扩展到100万到如何微调Llama3 8B_llama3 微调 mysql 数据_llama3 代码很短_第2张图片

且llama3的预训练模型这些榜单上PK同等规模的其他模型时,亦有着相对突出的表现一文速览Llama 3及其微调:从如何把长度扩展到100万到如何微调Llama3 8B_llama3 微调 mysql 数据_llama3 代码很短_第3张图片

1.2 Llama 3:模型架构、预训练数据、扩大预训练和指令微调


1.2.1 模型架构:继续transformer解码器架构、分组查询注意力、8K上下文

和Llama 2一样,Llama 3 继续采用相对标准的decoder-only transformer架构,但做了如下几个关键的改进

  1. Llama 3 使用具有 128K tokens的tokenizer 相当于,一方面,分词器由 SentencePiece 换为了 Tiktoken,与 GPT4 保持一致,可以更有效地对语言进行编码 二方面,Token词表从LLAMA 2的32K拓展到了128K

为了提高推理效率,Llama 3在 8B 和 70B 都采用了分组查询注意力(GQA)一文速览Llama 3及其微调:从如何把长度扩展到100万到如何微调Llama3 8B_llama3 微调 mysql 数据_llama3 代码很短_第4张图片

值得指出的是,上一个版本的llama 2的34B和70B才用到了GQA「详见LLaMA的解读与其微调(含LLaMA 2):Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙的第3.2节LLaMA2之分组查询注意力——Grouped-Query Attention」 一文速览Llama 3及其微调:从如何把长度扩展到100万到如何微调Llama3 8B_llama3 微调 mysql 数据_llama3 代码很短_第5张图片

  1. 在 8,192 个token的序列上训练模型,且通过掩码操作以确保自注意力不会跨越文档边界这点相比llama 2是一个进步,毕竟llama 2的上下文长度还只有4K,所以我司审稿项目组在用平均长度8.5K的paper-review数据集去微调llama2时,不得已必须用上longlora/longqlora这类扩展长度的技术(详见:七月论文审稿GPT第2版:用一万多条paper-review数据微调LLaMA2 7B最终反超GPT4)

1.2.2 训练数据:15T预训练数据

做大模型开发的都知道,数据的重要性不言而喻,为进一步提高模型的性能

  1. Llama 3 经过超过 15T token的预训练(比 Llama 2 使用的数据集大七倍,并且包含四倍多的代码,要知道,llama 2的训练数据才2T个token,即2万亿个token)&

你可能感兴趣的:(llama,语言模型,人工智能,自然语言处理,深度学习,机器学习)