推荐系统|Embedding方法

1. embedding含义

embedding,是指用一个低维的向量表示一个对象,对象可以是词、商品、电影等等,而embedding向量具有隐含性质:向量距离相近的对象,实际含义也相近,如embedding (触不可及)与embedding(绿皮书)距离会很接近。

2. embedding于离散特征的意义

对于类别型特征,在机器学习中通常用one-hot encoding进行编码,编码的维度等于物品类别的总数,这种编码方式对于高维的类别特征比如ip地址,维度会是超大量级的,编码向量也是极端稀疏的;即使是使用muliti hot encoding对用户浏览历史这样的多值特征进行编码(根据多个取值,向量中可以有多个1),编码向量也会是非常稀疏的;

出于深度学习以及工程应用方面的考量,对稀疏向量的处理并不友好和合适,因此将对象编码为一个低维稠密向量(embedding),再送入DNN,会是一个更加合适且高效的基本操作。

待续:
DeepWalk 的主要思想是在由物品组成的图结构上进行随机游走,产生大量物品序列,然后将这些物品序列作为训练样本输入 Word2vec 进行训练,得到物品的 Embedding。因此,DeepWalk 可以被看作连接序列 Embedding 和 Graph Embedding 的过渡方法。
参考:https://www.cnblogs.com/demo-deng/p/15840137.html

你可能感兴趣的:(推荐系统|Embedding方法)