[论文阅读笔记21]Mean teachers are better role models

论文标题:

Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Antti Tarvainen(芬兰,阿尔托大学), Harri Valpola (The Curious AI Company) 作者有一句话***“目前在用的所有人工智能都是二流的”***

The Curious AI Company公司是一家芬兰深度技术初创公司,宗旨是为未来打造自主AI。这个学校的校徽还是比较有意思的:

[论文阅读笔记21]Mean teachers are better role models_第1张图片

论文链接:

https://arxiv.org/pdf/1703.01780.pdf

代码链接:

https://github.com/CuriousAI/mean-teacher

Slider:

https://github.com/CuriousAI/mean-teacher/blob/master/nips_2017_slides.pdf

NIPS 2017 poster

这个思想也是一致性原则

是论文《TEMPORALENSEMBLING FORSEMI-SUPERVISED LEARNING》的一个延伸。

算法流程

[论文阅读笔记21]Mean teachers are better role models_第2张图片

**第一步,**构建一个普通的监督模型;

[论文阅读笔记21]Mean teachers are better role models_第3张图片

第二步,把监督学习模型对它copy一份,原模型叫做student,另一个叫teacher;

[论文阅读笔记21]Mean teachers are better role models_第4张图片

第三步,在每训练步中,使用同样的minibatch输入到student与teacher模型中,但在输入数据前分别加入随机增强或者噪音;

[论文阅读笔记21]Mean teachers are better role models_第5张图片

第四步,加入student与teacher输出的一致性损失函数(consistency cost);

[论文阅读笔记21]Mean teachers are better role models_第6张图片

image-20210225171004011

第五步,优化器只更新student的权重;
第六步,每个训练步之后,采用student权重的EMA更新teacher权重;

[论文阅读笔记21]Mean teachers are better role models_第7张图片

指数平移平均法更新。

Mean Teancer, П-model, Temporal ensembling对比

先把它们的模型框架图放在一下

[论文阅读笔记21]Mean teachers are better role models_第8张图片

[论文阅读笔记21]Mean teachers are better role models_第9张图片

[论文阅读笔记21]Mean teachers are better role models_第10张图片

П-model, Temporal ensembling前一篇作了介绍。这里从图来看一下,大的框架思路基本是一样。可以看成是П-model中的两次计算中模型换成了两个不同的模型,一个叫teacher,一个叫student; 另外,也可以看成作Temporal ensembling的改进版,在Temporal ensembling中,采用的是每epoch的指数移动平均值来聚合历史数内容,而Mean teacher则是在每训练步进行对Student的权重进指数移动平均;

实验结果

[论文阅读笔记21]Mean teachers are better role models_第11张图片

[论文阅读笔记21]Mean teachers are better role models_第12张图片

总结

比较单纯的一篇论文,来自一个很有激情的CEO,一心想把理论应用于实践。

比较喜欢这种论文,就为了解决一个问题,不想谈其它乱七八糟的内容,效果看数据分析。

参考

【1】长文总结半监督学习(Semi-Supervised Learning),https://zhuanlan.zhihu.com/p/252343352

happyprince; https://blog.csdn.net/ld326/article/details/114107687

你可能感兴趣的:(深度学习,深度学习,人工智能,机器学习,神经网络)