Rocchio算法用于文本分类

谈谈自己的理解……
假设现有正样本集P和负样本集U用来训练一个二分类Rocchio分类器
主要思想如下:

1.对于P和U分别计算质心
Rocchio算法用于文本分类_第1张图片(*)

2.对于以后待分类的每一个文档d,计算d与 c+或者c-的相似度(如余弦相似度),并划分为相似度大的那一类。

(*)中各个字母的意义:正负样本的个数
|P|和|U|代表
c+、c-:训练集P和N的质心,即能够代表这一类的一个向量
α、β:可用于调节正负样本对于结果的影响
d的含义:代表每一个文档,是一个向量:d=(q1,q2,….,qn),qi表示每一个词的TF*IDF,它越大表示词越重要
TF*IDF解释可见这篇文章:
http://blog.csdn.net/xiangshoujiyi/article/details/51316072

refrence:http://blog.csdn.net/dengxiayigetaishan/article/details/52770024

你可能感兴趣的:(NLP)