《论文细节》R-Drop的鲁棒性会因为模型趋于一致性被抑制吗?不会

《论文细节》R-Drop的鲁棒性会因为模型趋于一致性被抑制吗?不会!

      • 问题
      • Dropout 原理
      • Dropout 意义
      • 与R-Drop 的关系
      • KL 散度的作用
      • 参考

我之前关于 R-Drop论文阅读 解析

问题

之前在看《R-Drop》时,总存在一个疑问:

dropout的提出是希望防止过拟合【也就是希望模型不要把所有的特征都进行学习,而是具有在未知数据集(推理阶段)能够进行很好预测地潜力】,从而提高模型的鲁棒性,但是R-Drop的目的在于随机丢掉一些隐藏层节点后仍和完整模型的输出基本保持一致,换句话讲,自我感觉就是drop得越少越好,但这很大程度上就限制了泛化的能力。

在看沈老师的B站视频时,看到评论区也有同样的疑问,但是网上搜索了半天,似乎也没有找到我信服的答案。。。

你可能感兴趣的:(NLP,r语言,人工智能,深度学习)