分类

NB-----naive bayes贝叶斯

需求:判断一篇文章属于哪个类型?{军事、科技、体育}
建立模型:
W = 文章 = {w1,w2,...,wn} wi=词
Y=类型={y1,y2,y3} y1=军事、y2=科技、y3=体育
需求:求w属于y1,y2,y3的概率?
Pmax={P(y1|W),P(y2|W),P(y3|W)}
贝叶斯
P(yi|W) = P(W|yi)*P(yi) / P(W)
P(yi|W) ≈ P(W|yi)
已知军事,这篇文章的概率
已知科技,这篇文章的概率
已知体育,这篇文章的概率

p(w) 最大似然估计即可
有10篇文章,3篇体育,5篇科技,2篇军事

p(W|yi)

  • 这篇文章军事的词 / 军事的词
混淆矩阵

confusion table

预测1 预测2
现实1 TP FN
现实2 FP TN
PR曲线

y轴:Precision = TP / (TP+FP)
x轴:Recall = TP / (TP+FN)

准确率即猜1的里面是1的占比
召回率即是1的里面猜1的占比

ROC曲线

y轴:真阳率 = TP / (TP+FN)
x轴:假阳率 = FP / (FP+TN)
真阳率即真里面预测了多少真
假阳率即假里面预测了多少真

AUC曲线
  • ROC曲线下的面积 y=f(x)
  • y < f(x) 意味着 小于

你可能感兴趣的:(分类)