【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记

文章目录

  • 大模型的时代我们可以做些什么
  • 1. 问题1:基础理论
  • 2. 问题2:下一代的“大模型”在哪里?
  • 3. 大模型的性能
  • 4. 大模型训练好之后,如何去适配下游的任务
  • 5. 大模型的可控生成
  • 6. 大模型在其安全性和社会伦理方面还是欠缺考虑
  • 7. 人的高级认知能不能被学习?
  • 8. 大模型是AI的未来吗?
  • 9. 模型的性能应该如何评估
  • 10. 大模型系统
  • 总结
  • 写在最后


本文章主要参考了清华大学刘知远教授关于“大模型” 的讲座,并加上了作者的一些学习思考,提出了当下预训练模型(fine-tune)所遇到的机遇、局限与挑战,原汇报视频如下,欢迎大家多多讨论交流学习~

清华刘知远大模型十问


大模型的时代我们可以做些什么

  • 大模型能够在大规模、无标注的数据上进行训练
  • 而模型也能够在一些小数据上面做微调
  • 大模型 + 小数据集 已经成为“新范式”

【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第1张图片
当Transformer问世之后,以前所采用的CNN、RNN变得不再流行,我们都采用类似的框架对模型进行实现,大模型并不是使得我们离人工智能越来越远,相反,在变得越来越近

本质特点

  • 同一框架
  • 同一模型

1. 问题1:基础理论

使用非常少的下游数据就可以实现对下有任务的匹配,我们无论是从全量的下游数据,还是Few-shot learning、In-context learning、Zero-shot learning,都能达到相当不错的效果
在预训练到下游任务的匹配中,我们需要调整的参数的数量是相对来说较少的,由此,引发了如下三个问题:

  • What:大模型究竟是什么
  • How:大模型为什么好,它是如何做到这一点的,它的pre-train和fine-tune是怎么关联在一起的?
  • Why:大模型为什么学的那么好?

2. 问题2:下一代的“大模型”在哪里?

距离我们首次提出大模型结构Transformer(2017)已经过去了5年,随着我们的模型规模不断增长,我们对模型的提升也越来越有限, 我们不禁要问一个问题:Transformer是不是最终极的一个框架呢?

【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第2张图片
类似于神经网络从神经科学受到的启发,我们或许能够从数学领域找到一些答案?

数学

  • 非优空间Minifold的一些启发
  • 奖几何的一些先验,放到模型里面去
    工程和物理
  • 从动态系统、控制的角度
    神经科学
  • 类脑,Spiking Neural Network (SNN)

3. 大模型的性能

大模型变得越来越大,硬件部分的限制也需要考虑到,我们需要向计算机系统相结合
【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第3张图片
大模型即使训练出来了,但是在一些小的分布式系统中,由于模型比较复杂,推理的过程所用到的时间有时也会变得难以接受,我们可以考虑如何将模型进行压缩,而且保留其最大的效果

  • 剪枝
  • 蒸馏
  • 量化
    以及大模型可能有的稀疏发散的特性
    【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第4张图片

4. 大模型训练好之后,如何去适配下游的任务

模型越大,适配下游的任务难度越高,越来越多的论文都在使用预训练模型,但是参考顶会的论文,真正使用大模型的数量还是偏少

即使目前已经对许多大模型进行开源,但是对于许多的研究机构来讲,还是不能够很好地把大模型适配到他们的下游任务中

  • Prompt-Learning
    一个非常重要的方向Prompt-Learning,能够很好地将下游任务与预训练模型结合
  • Delta Tuning
    只去调整大模型中的少量参数,以快速适配下游任务,开源工具:
  • OpenPrompt
  • OpenDelta
    【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第5张图片

5. 大模型的可控生成

在使用大模型来生成文本,(加入条件约束)如何对大模型使用约束来进行可控生成
【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第6张图片


6. 大模型在其安全性和社会伦理方面还是欠缺考虑

大模型容易出现被攻击的可能(稍微改变输入可能就不工作了)

大模型很容易被故意植入一些”后门“从而使其在特定的场景下做出一些特定的响应
【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第7张图片
模型变得越来越大,也变得越来越不被人信任


7. 人的高级认知能不能被学习?

通常人在接收到一个任务后,总是经历

  1. 任务分析
  2. 拆解
  3. 搜索信息
  4. 分块解决

在国际上,已经有类似于WebGPT、CC-Net等大模型正在学习怎么去使用搜索引擎、网上冲浪、获取有意思的信息

【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第8张图片


8. 大模型是AI的未来吗?

【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第9张图片
对蛋白质预测、风格迁移等方向都有进展,对大规模数据建模,把一些领域知识加入其中


9. 模型的性能应该如何评估

  • 如何评价?
  • 哪个地方还有不足?
    我们需要有一个更加科学的方法去评判大模型的优劣

【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第10张图片


10. 大模型系统

大模型在一个大框架中已经充分地展现了其实力,未来是有希望将其运用在各种各样的框架之中的,如果我们希望其得到更广泛的应用,我们首先需要考虑的是应该如何降低其使用门槛,我们可以参考李历史上的一些成功的案例,例如数据库、大数据分析系统的启发,我们也要构建大模型系统,可以从

  • 底层设备
  • 用户接口
  • 普适性
    【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第11张图片
    面向大模型的系统

总结

【深度学习讲座】 悟道讲座—— 大模型“十问”讲座学习笔记_第12张图片


写在最后

各位看官,都看到这里了,麻烦动动手指头给博主来个点赞8,您的支持作者最大的创作动力哟!
才疏学浅,若有纰漏,恳请斧正
本文章仅用于各位作为学习交流之用,不作任何商业用途,若涉及版权问题请速与作者联系,望悉知

你可能感兴趣的:(深度学习(DL)之路,深度学习,学习,机器学习)