深度学习-13-小语言模型之SmolLM的使用

文章附录

  • 1 SmolLM概述
    • 1.1 SmolLM简介
    • 1.2 下载模型
  • 2 运行
    • 2.1 在CPU/GPU/多 GPU上运行模型
    • 2.2 使用torch.bfloat16
    • 2.3 通过位和字节的量化版本
  • 3 应用示例
  • 4 问题及解决
    • 4.1 attention_mask和pad_token_id报错
    • 4.2 max_new_tokens=20
  • 5 参考附录

1 SmolLM概述

1.1 SmolLM简介

SmolLM是一系列尖端小型语言模型,提供三种规模的版本:分别为135M、360M和1.7B参数。这些模型基于Cosmo-Corpus构建,这是一个经过精心策划的高质量训练数据集。
深度学习-13-小语言模型之SmolLM的使用_第1张图片

Cosmo-Corpus涵盖了Cosmopedia v2(由Mixtral生成的280亿个token的合成教科书和故事)、
Python-Edu(来自The Stack的40亿个token的教育性Python样本)以及FineWeb-Edu(来自FineWeb的220亿个token的去重教育性网页样本)。在测试常识推理和世界知识的多个基准测试中,SmolLM模型与其他同类规模的模型相比展现出了有希望的结果。

据 Hugging Face 官方消息,Hugging Face 近日推出一系列 SmolLM小模型,包含多个不同参数的模型。

SmolLM系列模型采用原创 SmolLM-Corpus 的数据集训练。该数据集主要包含 Python 教学内容 Python-Edu、Web 教育内容 FineWeb-Edu 以及使用 Mixtral-8x7

你可能感兴趣的:(深度学习,深度学习)