共现矩阵

共现矩阵

主要用于发现主题,解决词向量相近关系的表示; 
将共现矩阵行(列)作为词向量

例如:语料库如下: 
• I like deep learning. 
• I like NLP. 
• I enjoy flying.

则共现矩阵表示如下:(使用对称的窗函数(左右window length都为1) )

共现矩阵_第1张图片

例如:“I like”出现在第1,2句话中,一共出现2次,所以=2。 
对称的窗口指的是,“like I”也是2次

将共现矩阵行(列)作为词向量表示后,可以知道like,enjoy都是在I附近且统计数目大约相等,他们意思相近

共现矩阵不足: 

面临稀疏性问题、向量维数随着词典大小线性增长

解决:SVD、PCA降维,但是计算量大
 

你可能感兴趣的:(机器学习)