Machine learning中的常见名词解释

文章目录

    • 模型
    • 标记(label)
    • 过拟合
    • 模型评估方法
    • 调参
    • 查准率和查全率
    • 置信区间与置信度

模型

模型是通过算法将已有的数据训练得到的结果,机器学习的主要内容是在计算机上从数据中产生“模型”的算法。有了模型,可以就新的情况提供判断。
从数据中学的模型的过程称为“learning” or “training”,这个过程通过执行某个算法来完成。

标记(label)

根据训练数据是否拥有标记信息,学习任务可大致分为两大类:监督学习(supervised learning)和非监督学习(unsupervised learning)分类(clalssification)和回归(regression)是前者的代表,聚类(clustering)是后者的代表。

过拟合

过拟合是由于模型在学习过程中将训练样本自身的一些特点当做了所有样本都会具有的一般性质,就回导致泛化性能的下降,这样的模型往往在训练样本上拟合的很好,而在测试集或实际情况中的错误率较高,称之为过拟合。过拟合是机器学习面临的关键障碍。解决过拟合的方法有:1,更多的训练数据;2,特征选择;3,正则化。
相对应的欠拟合是指对训练样本的一般性质尚未学好。
Machine learning中的常见名词解释_第1张图片

模型评估方法

  • 留出法
    留出法直接将数据集D分为两个互斥的集合,一个作为训练集S,另一个作为测试集T,在S上训练出模型后,用T来评估测试误差,作为对泛化误差的估计。训练集和测试集应该采用分层采样的方法,使得两个集合中的样本的数据分布保持一致性。
  • 交叉验证法(Cross Validation)
    交叉验证是将数据集划分为k个大小的集合,每次用k-1个集合作为训练集,剩余的一个集合做为测试集。这样可以获得k组训练集/测试集,从而可进行k次训练和测试,最终返回的是k个测试结果的均值,通常又称为k折交叉验证。
    Machine learning中的常见名词解释_第2张图片
  • 自助法
    (适用于数据量较少时)假设数据集为D,自助法是通过自助采样从D中采集出训练集S进行训练,用D-S作为测试集。
    假设数据集D中有m个样本,每次从D中有放回的抽取一个样本放入S集合中,保证这个样本下次还有几率能抽到,重复该过程m次以后,得到的数据集S就是训练集。
    自助法能从初始数据集中产生多个不同的训练集,对集成学习有很大的帮助。
    自助法产生的数据集改变了原有的数据集分布,会引入估计误差。

调参

多数机器学习算法都有些参数需要设定,参数配置的不同,学得模型的性能往往有很大的差别,调参和算法选择没有什么本质的区别,对于每种参数配置都训练出模型,然后把对应最好模型的参数作为结果,学习算法的参数是在实数范围内取值,对每种参数都训练出模型是不可行的,因此,对每个参数选定一个范围和变化步长(类似于希尔排序的增量)。显然,这样得到的参数值往往不是最佳值,
需要注意的是,通常训练模型要留出一部分数据做测试集,在模型选择完成后,学习算法和参数设置已选定,此时应该用整个数据集重新训练模型,这个模型在训练过程中使用了所有样本,才是最终提交给用户的模型。

查准率和查全率

二分类问题中的查准率和查全率
Machine learning中的常见名词解释_第3张图片

  • 查准率是指预测结果中是正例的结果中正确的比例(检索出的信息中有多少比例是用户感兴趣的),即预测的所有为好瓜的样本中预测正确的结果与预测为好瓜的所有结果的比例。
  • 查全率是指样本的正例中多少预测正确的比例(用户感兴趣的信息有多少被检索出来了),即真实情况为好瓜的样本中检测正确的比例。
    查全率和查准率是一对矛盾的度量。
    Machine learning中的常见名词解释_第4张图片
    图中显示的是三个模型的P-R曲线,在进行比较时,若图中一个模型的P-R曲线被另一个曲线完全“包住”,则可断言后者的性能优于前者,如图中A模型的性能优于C。
    若两个模型的P-R曲线发生了交叉,利用上面的方法行不通,则可采用积分求面积的方法进行比较或者比较平衡点取值。平衡点是查全率=查准率的点,如上图B的平衡点为0.72,A的平衡点为0.8,则可认为A优于B.
    与平衡点相比,更常用的是F1常量。
    在这里插入图片描述
    即:
    在这里插入图片描述
    但在不同的应用中,对查准率和查全率的重视程度不同,通过对P和R加权调和平均:
    在这里插入图片描述
    即:
    在这里插入图片描述
    β>0度量了查全率对查准率的相对重要性,β=1时退化为标准的F1,β>1时查全率有更大的影响,β<1时查准率有更大的影响。

置信区间与置信度

  • 区间估计

你打枪打10次,你可以得到一个平均值,比如是8.那么总体的期望是不是就是8呢?你要说是,那就太草率了吧,因为你再打10次可能就是7了,那么总体的期望就变成7了嘛?当然不是,总体的期望是客观存在不会变的。实际上均值等于期望的概率是0啊,所以说,以点估点是不准确的。但是既然样本是从总体中抽出来的,那么样本的均值和总体的期望应该差的不远吧?你射击的均值是8,总体的期望总不能是1吧?所以,你若换句话说打枪的平均环数是[6,8],那么相信的人就会很多了。可见,虽然扩大了总体均值的取值范围,但是可信度明显高了。

当然你不能简单无限度扩大区间范围,毕竟统计也要讲究一定的精度。所以咱就有了置信度,也就是说,你测得的均值,和总体真实情况的差距小于这个给定的值的概率,说你测得的均值就是总体期望是很草率的,但是说,我有95%的把握认为我测得的均值,非常接近总体的期望了,听起来就靠谱的多。

平时我们常说的95%置信度到底是什么意思呢?

要理解置信度,就要理解好置信区间。要理解置信区间,就要从统计学最基本最核心的思想去思考,那就是用样本估计总体。在统计学中,非常容易把概念模糊化,很容易把95%置信区间理解成为在这个区间内有95%的概率包含真值。
但是这里有两个容易混淆的地方
1.真值指得是样本参数还是总体参数?这个问题的答案是总体参数,我们取的数据是样本数据,点估计是样本参数的真实值,我们要估计总体参数。
2.95%的概率,变动的是谁?这里95%的概率,变动的是置信区间。
错误理解:假如有100个考生,100个学生中有95个考分落在(70,80)这个区间内。这就是95%置信度。
这是非常错误的理解,样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值,这个值只有一个,且不会变动。
那正确的应该怎么理解呢?
样本数目不变的情况下,做一百次试验,有95个置信区间包含了总体真值。置信度为95%。换言之,若扩大样本容量,考100次试,这100名学生的成绩组成改的区间有95次包含了总体真正的均值,那这才是95%置信度。即有95%的把握说总体的真值在这个区间内。

你可能感兴趣的:(Machine,Learning)