大模型时代下做科研的四个思路

1 Efficient高效

2 Pretraining

3 plug and play 插即用模块

4 Dataset,evaluation,summary 数据集,评测,综述文章

整理自 B站Bryanyzhu老师,原视频链接如下

大模型时代下做科研的四个思路【论文精读·52】_哔哩哔哩_bilibili

2023年初Facebook开源了自己的大语言模型LLaMA,为了让模型更加亲民

LLaMA的参数量有四个等级,分别是70亿(7 Billion)、130亿(13 Billion)、330亿(33 Billion)、650亿(65 Billion)这四个等级

比较好玩的是Facebook命名模型的时候是大语言模型,但是在他的发布博文里,他通篇都”谦逊“称呼小模型 Smaller Model

不过这个确实是看和谁比了,如果和GPT3 1750亿 (175Billion)比,或者Google的PaLM的5400亿 (540BIllion)比,还是小了一个数量级

但是比我们日常中用的很多模型都大多了

至于CV领域,在2月10号,Google放出了更大的模型VIT 参数量22B (220亿参数)可以说在视觉领域也有了非常大的模型了

bryanyzhu 老师给出了自己的四点建议

1 Efficient高效

把原来做不了或者做的很慢的工作,通过模型上的改进,使得用少量的计算资源就可以完成!

作者举了自己的一篇工作

之前视频理解的工作需要微调时间空间网络,参数量很大,耗时很长

而他们仿照自然语言处理那边的工作在不同位置添加了adapter层(可学习参数),主干网络参数冻住进行微调

效果非常好,而且由于添加的层参数量很少,内存占用和所用时间也很少

还有前几天怎么把attention做出Efficient attention

2 Pretraining

当没有足够多的资源的时候,尽量不去碰pre_trainning

尽量选择一些topic比较新的

这些方向数据集比较小,backbone也比较小

3 plug and play 插即用模块

模型上的一些模块

或者一些新的loss损失函数之类的

或者是一个数据增强的方法

4 Dataset,evaluation,summary 数据集,评测,综述文章

评测,综述文章的话对于卡的占用就比较少了

而且可以加深我们对于一个领域的理解

在刚开始一个领域的时候,写写综述的帮助是非常大的

你可能感兴趣的:(读论文,神经网络,人工智能,深度学习,网络)