Big Model Basics1-2

the trip to big models

13年word2vec、14年rnn、15年attention mechanism、17年transformer、18年elmo、bert

不断增加他的参数,数据,显著提升各种任务的性能,

参数每年10倍速增长,所需数据也变大,

大模型具有很强的小样本或者少次学习的能力,引导,提取相关知识去解决具体的问题,如机器翻译,我们以前会需要大量的平行语料去做,但对于GPT-3的话,他是通过无标数据训练后,哪怕只给出一些少量的翻译样本,也能做好机器翻译,这就是大模型量上去之后,依靠少的样本也能推理出来,这是区别于从头开始学习的方法的一个差别所在

paradigms behind big models

大模型和传统的做nlp的方式有很大的不同点,大模型为什么能够work一个很核心的机理?

一个核心要素:它会从无标注的数据中去进行学习,然后通过一些自监督的一些任务去做预训练,从中去得到丰富的知识,然后在具体应用的时候,它会引入一些任务相关的数据然后去调整模型,即在这个已经预训练训练好的模型上引入任务相关数据可以帮助我们去对具体的任务去进行一些适配

整个预训练语言模型的使用范式:

预训练阶段,获取大量的知识,这些知识是一些通用知识,它可能解决各种各样的问题,当对于你要解决具体任务的话它不一定所有知识都是适用的,所以需要结合任务特定的数据,去对它的参数进行微调,最终保留任务相关的知识,不相关的则抛弃,这样最终会得到一个用于解决具体任务的模型,他能够在下游任务上表现的很好,只要给出数据就能做出相应的部署和拓展

来源:the basic paradigam of pre-training and fine-tuning can be traced back to transfer learning(迁移学习)

迁移学习:人去做学习的时候,在过去其实学到了很多知识,这些知识能够解决各种各样的问题,或者帮助你去做各种各样的这种文本理解,如果我遇到一个新的文本或任务的话,人是可以去联想你过去的那些知识,并且基于已有知识的基础上,对新的任务去做学习或解决,整个人的这套机理是高效的(研究transfer learning 时,也是考虑怎么去让机器也能和人一样有这样的能力)

humans can apply previously learned knowledge to handle new problems faster,and we want machines to have similar abilities.

某种程度上,预训练学习其实就是在做一个transfer learning,因为从无监督的数据上去做学习,得到了大量的知识,然后微调阶段引入任务相关的数据去帮助调整模型

transfer learning uses a "pre-training and then fine-tuning" framework to achieve "knowledge acquisition and then knowledge transfer"

both feature-representation-transfer and parameter-transfer are used in the subsequent works of pre-training models.

demos of big model

human-level chatting with gpt-3(175B)

scientific plotting with codex(175B)

image generation with DALL-E 2(5B)

Web-based question answering with Webgpt

coding environment & GPU sever

for unregistered students ,you can

try to get GPU server by yourself

use google colab(sometimes can have gpu/tpu resources allocated)-unstable-buy a pro account become stable

(https://colab.research.google.com/)

prerequisites

ssh

linux command

vim

tmux

virtual environment & conda &pip

vscode+remote conection

git

bash

search engines always help!

你可能感兴趣的:(大模型,深度学习,人工智能)