✨你好啊,我是“ 怪& ”,是一名在校大学生哦。
主页链接:怪&的个人博客主页
☀️博文主更方向为:课程学习知识、作业题解、期末备考。随着专业的深入会越来越广哦…一起期待。
❤️一个“不想让我曾没有做好的也成为你的遗憾”的博主。
很高兴与你相遇,一起加油!
以垃圾邮件分类为例
四种制作优先级的方法
单一规则的数值评价指标,强烈推荐在交叉验证集上来做误差分析
是否用词干提取
若有偏斜类,用分类精确度并不能很好的衡量算法
评估此类模型方法:
查准率(越高越好)
召回率(越高越好)
将y=1定义为对立两者中较少的那一类
F值会考虑查准率和召回率的平均值,但是其会给查准率和召回率中较低的值更高的权重
以此来作为评判比较合理
F值计算:2(PR)/(P+R)
朴素贝叶斯分类器
特征捕捉
大量的数据时是有帮助的
例如预测房价时,只给房子的大小并不能预测房子的价格
当数据量非常大时,不太可能出现过度拟合的状态,我们的训练误差可能接近测试误差
确保较低偏差:通过确保有一个具有很多参数的学习算法来保证的,以便我们能够得到一个较低偏差的算法。
确保较低方差:用非常大的训练集来保证我们在没有方差问题
将两者结合,可以得到低偏差和低方差的的学习算法,关键在于:特征值有足够的信息量,有一类很好的函数(此为确保低误差的关键)
若有大量的数据,且训练了一种带有很多参数的学习算法,这将是一种很好的方式来提供一个高性能的学习算法。