2021-04-19 ch9 词向量技术

矩阵分解法

构造矩阵X 形状式词库size×词库size
分解后得到S\V\D, 其中S矩阵就是词向量
坏处是 矩阵分解是全局方法,分解的过程依赖于所有的语料库,一旦语料库变了,X就变了。不方便做增量更新。


矩阵分解法

Glove 一个融合矩阵分解(全局)和SkipGram模型(局部)的方法

Huffman编码

构建词表的一种方法:
词频越高,节点所处的层数越小,希望越快查找到(从根节点出发)。
较小值放在右边。
1)所以先找最小的top2词,词频分别是1和3
2)1+3 = 4 得到上一级的节点值
3)构造好一棵树后进行huffman编码,保证高频词码长越短。

构建huffman树

huffman编码

你可能感兴趣的:(2021-04-19 ch9 词向量技术)