词向量到word2vec与相关应用

文本是更高层的,是人有智慧以后定义的一些tokens 或者是一些符号去组合成的数据,所以必须转换成计算机能够识别出来的数据(如word2vec)

前提:先把词用今天的方法或者传统的方式映射为一个个向量,然后才用这些数值向量去完成后续的工作。我们知道 数据(特征)决定了算法最终能达到的上限。所以如果数据不好的话,即使后面的模型再好也不能达到好的结果

关键是构建一个词典

如上图,词袋就相当于放在该袋中的有几个词,如第一句话likes有2个所以就在第二个位置写2(默认,出现该词为1,未出现该词为0),该方法忽视了词的重要性 ,后来提出了TF-IDF计算词的权重(可以表示重要程度)

上图,例如 Mike  love you  和you love Mike(发现用用词袋来做的话就不行,因为都出现了)所以解决该问题就是:我们可以将2个词看成一个整体,考虑了词的顺序。

语言模型对语序的考虑,语言模型的好坏对结果的准确度或者是通畅度影响非常大

不论通过何种度量(与或非、距离)进行各种各样的组合都不可能获取到酒店、宾馆、旅舍本身所表达的是一个意思(稀疏且表达不到具体的涵义),所以你在编码的时候就丢掉了一部分信息,因此结果很糟糕会丢失掉一部分信息。
只是一个分布式概念
可以根据周边的词可以知道该词的含义
可以向左先右看(看共现的词)

降维:SVD降维   

不能嵌入神经网络中
是一个全局的优化

用当前3个词与词第4个词

下面数第2层是投影层


用上下文预测目标词(去掉了投影层和隐藏层)

word2vec是在大量数据集中训练不能再2,3句句子训练。


Glove利用全局训练的
但是大部分用的是word2vec

你可能感兴趣的:(词向量到word2vec与相关应用)