数学之美笔记(十一)

  1. 对于一篇新闻中的所有实词,计算出它们的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排列,就得到一个向量。我们就用这个向量代表这篇新闻,成为新闻的特征向量。

  2. 向量的夹角是衡量两个向量相近程度的度量。夹角的余弦越小,夹角越大,新闻越不相关;当夹角的余弦接近于1时,两条新闻相似,可以归成一类。当两个向量正交时,夹角的余弦为0,说明两篇新闻毫不相关。

  3. 新闻分类的算法:

    1. 情况A:事先没有新闻类别的特征向量。

    2. 情况B:假定我们已知一些新闻类别的特征向量,那么对于任何一个要被分类的新闻,很容易计算出它和各类新闻特征向量的余弦相似性,并且分到他该去 一类中。

      1. 手动建立特征向量

      2. 自动建立特征向量

        首先计算所有新闻之间两两的余弦相关性,把相似性大于一个阀值的新闻合并成一个小类,这样N篇新闻就被合并成N1小类,当然N1<N。

        把每个小类中所有的新闻作为一个整体,计算小类的特征向量,再计算小类之间两两余弦相关性,然后合并成一个大一点的小类,假如有N2个,当然N2<N1。

      3. 循环往复直至这一类里一些新闻之间的相似性很小了,这时就要停止迭代过程。

本文涉及到的人物及其著作:

弗洛里安、雅让斯基

《安娜 · 卡列尼娜》——托尔斯泰

你可能感兴趣的:(数学之美,余弦定理,TF-IDF,新闻分类)