注意力机制可视化_用可视化解构BERT,我们从上亿参数中提取出了6种直观模式...

注意力机制可视化_用可视化解构BERT,我们从上亿参数中提取出了6种直观模式..._第1张图片

大数据文摘联合百度NLP出品

编译:Andy,张驰,龙心尘

来源:towardsdatascience.com

深度神经网络的超强有效性一直让人疑惑。

经典论文《可视化与理解CNN》(Visualizing and Understanding Convolutional Networks)解释了在图像领域中CNN从低层到高层不断学习出图像的边缘、转角、组合、局部、整体信息的过程,一定层面论证了深度学习的有效性。另一方面,传统的NLP神经网络却并不是那么深,而bert的出现直接将NLP的神经网络加到12层以上。

那么如何理解各层学到了怎样的信息?

本文作者Jesse Vig通过可视化工具对此进行了非常有意义的探究。文章分两部分,第一部分介绍bert中的6种模式,第二部分介绍其底层细节。

可视化BERT之一

在BERT错综复杂的注意力网络中,出现了一些直观的模式。

2018年是自然语言处理领域的转折之年,一系列深度学习模型在智能问答、情感分类等多种NLP 任务上取得了最佳结果。特别是最近谷歌的BERT ,成为了一种“以一当十的模型”,在各种任务上都取得了的极佳的表现。

<

你可能感兴趣的:(注意力机制可视化)