统计学习方法读书笔记(一)之监督学习

1.统计学习
统计学习也叫统计机器学习,从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
统计学习关于数据的基本假设是同类数据具有一定的统计规律。同类数据就是有某种共同性质的数据,例如英文文章、近几年某一天的天气情况等。因为只有相同性质,才具有统计规律,才可以用概率统计的方法来进行处理。一般情况下,用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
统计学习最终为了让计算机更加智能化,或者说使计算机某些性能得到提高。
统计学习包括监督学习、非监督学习、半监督学习和强化学习。
统计学习以方法为中心,学习方法三要素为:模型+策略+算法。
2.监督学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个好的预测。(输入输出是指某个系统的输入输出)
在监督学习中,所有输入(输出)可能的取值的集合称为输入(输出)空间。输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间(欧氏空间解释)。输入与输出空间既可以是同一个空间,也可以是不同的空间;通常输出空间远远小于输入空间。
每个具体的输入是一个实例,通常由特征向量表示;所有特征向量存在的空间称为特征空间,特征空间的每一维对应于一个特征。
下面介绍一些表达式:
输入实例x的特征向量:x = (x^(1),x^(2),…….x^(i),…….x^(n))^T
x^(i)表示x的第i个特征;xi(下标i)表示多个输入变量中的第i个。
训练集:T = {(x1,y1),(x2,y2),…..,(xn,yn)}
输入输出变量可以是连续的也可以是不连续的。两者均为连续变量的问题称为回归问题;输出变量为有限个离散变量的问题称为分类问题;两者均为变量序列的问题称为标注问题。
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),训练数据与测试数据被看做是依联合概率分布P(X,Y)独立同分布产生的。在学习过程中,我们假设P(X,Y)存在,实际上它是未知的。
输入空间到输出空间的映射的集合称为假设空间。它的确定意味着学习范围的确定。
监督学习的模型可以是概率模型或非概率模型,对具体输入进行相应的预测时,记作P(y|x)或y = f(x).
统计学习方法读书笔记(一)之监督学习_第1张图片
在学习过程中,学习系统利用给定的训练数据集,通过学习(训练)得到一个模型,用决策函数Y=f(X)或者条件概率分布P(Y|X)表示。学习系统通过不断地学习,训练,最后选取一个最好的模型。

你可能感兴趣的:(机器学习)