BERT词向量的特性

该文是对以下两篇文章的延伸解释。以下两篇文章说明了BERT提取的词向量集中在一个圆椎体内,且高频词距离远点更近。第二篇文章给出了如何解决不均匀分布问题。

BERT-Flow:BERT词向量的性质分析+标准化流

BERT-Flow:BERT词向量的性质分析+标准化流 - 知乎

文本表达:解决BERT中的各向异性方法总结_Litra LIN的博客-程序员秘密_bert各向异性

https://cxymm.net/article/qq_48314528/122760494#3SimCSE_153

为什么会出现圆锥形?这个问题分解为两个问题:①高频词为什么聚拢?②高频词为什么距离原点更近?

对于第①个问题,高频词与大量的语义环境上下文共现,模型不能根据这个高频词来判断上下文环境,反映在数据上,就是聚拢。正因为高频词所携带的信息量更少,在各个极性方向(男女、南北等)上也就不具有突出倾向,体现在数值上,就是数值很小,也就距离原点更近。

你可能感兴趣的:(人工智能)