(202312)so-large-lm:Task01引言

文章目录

  • 前言
  • 要点总结
    • 1 什么是语言模型
    • 2 大模型相关历史回顾
    • 3 这门课的意义
    • 4 课程结构介绍

前言

感谢开源学习的组织者与活动的发起者为我们带来so-large-llm这一可谓大语言模型的通识课。原项目地址为so-large-lm。

要点总结

基础比较烂,所以我会用我能理解,也就是大多数人能理解的方式通俗阐述。如果有什么过于离谱而文盲的解释或类比,请你随便指出。

1 什么是语言模型

  • 语言模型其实是序列的概率分布,大概也就是通过对一段散开的字词进行排列,然后展现出出现概率最大的一种。
  • 试想现在这个模型的词库很大,那么它就有可能给出很多符合常理的句子;但是这些句子是不需要的,我们现在在已经具有一小段序列的情况下只筛选出其中一部分字词,然后再在这些选择出的字词中进一步选择,就减少了计算量而出现了更合理并且语义明确的序列。
  • 温度可以控制生成中的变异量;这个词语还挺形象的。用分子动理论来类比的话就像是升高温度后整个气体变得更活跃了,更能出现奇怪的组合。

2 大模型相关历史回顾

  • 大模型的熵:熵实际上是一个衡量将样本 x ∼ p x∼p xp 编码(即压缩)成比特串所需要的预期比特数的度量。熵的值越小,表明序列的结构性越强,编码的长度就越短。直观上是符合心理的(因为不懂信息学,只能这么说TAT)。
  • N-gram模型:预测依赖于最后的n-1个字符,已经是有那味了。2007年Brants等在2万亿个tokens上训练了一个5-gram模型用于机器翻译。
  • 神经语言模型:有两个关键发展,循环神经网络(RNN)和Transformer架构。目前后者可以说是LLM发展到这样的大功臣。
  • LLM发展和算力的发展是分不开的。

3 这门课的意义

技术层面上本课专注于自回归语言模型。
应对广泛的应用领域以及对于大模型快速发展所产生一些问题的担忧。

4 课程结构介绍

分为四个层次

  1. LLM对于我们是黑盒子,只是通过API进行访问,理解其行为
  2. 从训练数据的角度来了解大模型以及思考关于其中的道德与法律的问题
  3. 学习如何构建大语言模型,学习其模型架构和算法
  4. 按照这种思维去思考这种方法的扩展,引向多模态大模型。

你可能感兴趣的:(参与dw开源学习,语言模型,学习方法,transformer)