NLP笔记 CS224n (2) —— 词向量与词传感器

传送门

Word2Vec

Optimization

梯度下降,随机梯度下降。

实质上是无监督学习,每个batch的最小单位可以是一组word2word的映射,输入值是一个中心词,输出值是一个其对应的outside词,要学习是从中心词要其对于outside词的映射,训练结束后只需要过程中的隐藏层信息,即词向量。

More Detials of Word2Vec

  • 一个词要两个向量的原因?
    • 为了更容易优化,但是一个也行
    • 事后可以对两个向量取平均值
  • 两种变种模型
    • Skip Grams 即由中心词预测上下文(第一节课所述模型即SG)
    • Continunous Bag of Words 即由上下文推测中心词
  • Negative Sampling 负采样
    • 每个训练sample只有一个输出为1,剩下的都为0,所以只需要选取 K K K 个 0 输出点(即其对应的outside词向量)进行更新即可,如
      J n e g − s a m p l e ( o , v c , U ) = − log ⁡ ( σ ( u o T v c ) ) − ∑ k = 1 K log ⁡ ( σ ( − u k T v c ) ) J_{neg-sample}(o,v_c,U)=-\log(\sigma(u_o^Tv_c))-\sum_{k=1}^K\log(\sigma(-u_k^Tv_c)) Jnegsample(o,vc,U)=log(σ(uoTvc))k=1Klog(σ(ukTvc))
      其中 σ \sigma σ 表示sigmoid函数。这样就可以将一个多分类问题变成一个二分类问题来处理。

其他方法

Co-occurrence vectors共现矩阵

即将上一章中的无向完全图用矩阵表示写出,问题明显,即过于稀疏,体积过大,鲁棒性差

Solution: 只储存那些更重要的信息,压缩维度,类似WORD2VEC

Dimensionality Reduction on X (HW1)

对共现矩阵做奇异值分解,再重新组合,形成一个更小的矩阵

Update: 将出现次数特别多的词,如the,he,has 单独处理

词向量的评估

  • 内部方法:规定一个中间方法,在词向量应用算法得到另一个词之后,我们对比词向量得到的词是否与我们人为规定的词相符。我们统计其预测的正确率,以此来代表词向量的好坏。
  • 外部方法:用一个真正的NLP任务来评价

你可能感兴趣的:(NLP,machine,learning)