换个维度理解Embedding

一些术语

维度: 长、宽、高是三个维度,这是对维度最基础的理解,时间也是一个维度,除此之外,我们可以把语言、声音等等这些都理解为一个维度。我们认识一个人可以从许多个维度来认识,基本的身高、体重、年龄、性别,基本之外的语言、音色、国籍、肤色、视力、等等,这样我们可以把人理解为大千世界中一个高维度的事物。一个词也有多个维度,语种、笔画、含义、使用频率、长度、词性等等。

降维: 鱼缸中的鱼,会有长短、大小、种类、重量、颜色、位置等等,降维可以理解为原本从5个或多个维度去认识这些鱼变成从2个维度去关注。我们忽略鱼的颜色、种类等等,只关注每条鱼的长度和重量。

相似度: 相似是一个很美的词,它能很好的描述两个事物之间的关系,适用于任意事物和场景,如相貌、高度、性格、大小、形状、结构等等诸多维度。而相似度可以从两个角度理解,两个事物从某个维度上非常接近,比如两座山峰从形状这个维度很相似,我们可以说这座山的相似度很高,另一个角度,就是两个事物从多个维度上来说都很接近,那说两个事物相似度90%多、99%之类。

词的相似度

上述提到词有多个维度,并且两个词在这些维度之下会有相似度,我们将词与词互相都进行“比较”,把相似度高的就放得近些,相似度低的就放得远些,最后组成一个词库。这样当我们碰到一个新的词不知道含义时,就把它放到词库中,看它跟哪个词最“接近”,最近接近的那个词的含义就可以理解为生词的含义。

每个词都有5个维度或者多个维度,每个维度都有一个值,当我们判断两个词相似度时就是根据这两个词的多个维度值接近程度来判断的。

确定词维度及维度值的过程称之为embedding,用各个维度值就代表了这个词,这各个维度值组成了这个词的embedding。

你可能感兴趣的:(思考,embedding)