——基于李航老师《统计学习方法》第二版 第一章整理
统计学习的定义:关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析。
此处的几个要点:
1.基于计算机实现的;
2.原材料为数据;
3.用原材料(数据)构建概率统计模型;
4.运用所求得模型,预测未知数据,并做出分析。
1.以计算机及网络为平台
2.以数据为研究对象
3.对数据进行预测与分析
4.构建模型并应用
5.多领域交叉中逐步形成(统计学、数学、计算机科学,数据科学、信息科学等)。
模型:
监督学习模型:条件概率分布 P(Y|X)与决策函数 Y = f(X)
非监督学习模型:聚类模型、降维模型等
强化学习模型:迭代模型等
前提条件:样本容量足够大。
即加入正则化项的正则化。
算法:
指学习模型的具体计算方法。
在考虑用什么样的计算方法求解最优模型时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
1.得到有限数据集合;
2.确定学习模型的集合;
3.确定学习的策略;
4.实现学习的算法;
5.通过学习方法选择最优模型;
6.利用最优模型对数据进行预测分析
定义:从标注数据中学习预测模型的机器学习问题。
特点:
1)从给定的、有限的、用于学习的训练数据出发;
2)假设数据是独立分布产生的;
3)通过学习得到一个表示为条件概率分布或决策函数的模型。
本质:学习输入到输出的映射的统计规律。
定义:从无标注数据中学习预测模型的机器学习问题。
特点:
1)预测模型表示数据的类别、转换或概率;
2)模型可实现对数据的聚类降维或概率估计。
本质:学习数据中的统计规律或潜在结构。
定义:智能系统在与环境连续互动中学习最优行为策略的机器学习问题。
特点:
1)每一步都从环境中观测到一个状态与一个奖励,并采取一个动作;
2)马尔可夫决策过程;
3)学习方法分为试图求解最优策略的策略迭代和试图求解最优价值的价值迭代。
本质:学习最优的序贯决策。
半监督学习、主动学习
概率模型:
1.条件概率分布形式 P(y | x);
2.是生成模型。
3.代表:概率图模型、贝叶斯网络、决策树、马尔可夫随机场、条件随机场等。
非概率模型:
1.决策函数形式 y = f ( x ) y = f(x) y=f(x)
2.是判别模型。
3.代表:感知机、支持向量机、KNN、Adaboost、K均值、潜在语义分析、神经网络等。
线性模型:
1.决策函数 y = f ( x ) y = f(x) y=f(x) 或 z = g ( x ) z = g(x) z=g(x)是线性函数。
2.代表:感知机、线性支持向量机、KNN、K均值等。
非线性模型:
1.决策函数 y = f ( x ) y = f(x) y=f(x) 或 z = g ( x ) z = g(x) z=g(x)不是线性函数。
2.代表:核函数支持向量机、Adaboost、神经网络等。
参数化模型:
1.假设模型参数的维度固定,模型可由有限维参数完全刻画。
2.代表:感知机、朴素贝叶斯、Logistic Regression、K均值、高斯混合等。
非参数化模型:
1.假设模型参数的维度不固定或无穷大,随着训练数据量的增加而不断增大。
2.代表:决策树、Adaboost、KNN、潜在语义分析等。
1.主要想法:计算在给定数据条件下模型的条件概率,即后验概率,并利用这个原理进行模型的估计,数据的预测。
2.特点:将模型、未观测要素及参数用变量表示,使用模型的先验分布。
3.代表:朴素贝叶斯、潜在狄利克雷分配等。
1.方法:使用核函数表示和学习非线性模型。
2.特点:不显示地定义从输入空间(低维空间)到特征空间(高维空间)的映射,而是直接定义核函数,即映射之后在特征空间的内积。
3.代表:核函数支持向量机、核PCA、核KNN等。
4.计算:
任意两个实例(向量) x 1 x_1 x1, x 2 x_2 x2,其内积为 < x 1 x_1 x1, x 2 x_2 x2 >, y y y 为输入控件到输出空间的映射, y y y( x 1 x_1 x1) 和 y y y( x 2 x_2 x2) 为 x 1 x_1 x1 和 x 2 x_2 x2 在特征空间的映像, 内积为 < y y y( x 1 x_1 x1), y y y( x 2 x_2 x2) >,再输入空间中定义核函数 K K K( x 1 x_1 x1, x 2 x_2 x2),使其满足 K K K( x 1 x_1 x1, x 2 x_2 x2) = < y y y( x 1 x_1 x1), y y y( x 2 x_2 x2) >
在线学习:每次接受一个样本进行预测(较难)。
批量学习:一次接受所有数据。
评估准则:测试误差小的方法具有更好的预测能力,泛化能力越强。
模型选择原则:选择复杂度适当的模型,以达到泛化能力强。
1.正则化: 在经验风险上加一个正则化项,模型越复杂,正则化值越大。
正则化的不同形式:
参数向量 L 1 L_1 L1 范数:
参数向量 L 2 L_2 L2 范数:
2.交叉验证:
前提:样本充足。
并将样本分为训练集、验证集、测试集。
训练集用于训练模型,验证集用于选择模型,测试集用于学习方法评估。
方法:
1)简单交叉验证: 验 证 集 测 试 集 \frac{验证集}{测试集} 测试集验证集 = 7 3 \frac{7}{3} 37
2)S折交叉验证
3)留一交叉验证
定义:由数据学习联合分布 P ( X , Y ) P(X,Y) P(X,Y),然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测的模型,即生成模型。
代表:朴素贝叶斯法、隐马尔可夫模型等。
特点:
1)可还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
2)学习收敛速度。
3)若存在隐变量仍然可用。
定义:由数据直接学习决策函数 f ( x ) f(x) f(x) 或条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 作为预测模型,即判别模型。
代表:KNN、感知机、决策树、 L o g i s t i c R e g r e s s i o n Logistic Regression LogisticRegression、支持向量机等。
特点:
1)直接面对预测,往往学习效率更高。
2)可对数据进行各种程度上的抽象,定义特征并使用。
1.分类问题:输出变量Y取有限个离散值,评价指标为准确率,是由“学习”到“分类”的过程。
2.标注问题:输入一个观测序列,输出一个标记序列或状态序列。
3.回归问题:预测输入变量与输出变量的关系,等价于函数拟合,是由“学习”到“预测”的过程,常用平方损失函数作为损失函数。
1.联合概率分布: F ( x , y ) = P ( X < = x ) 交 ( Y < = y ) ] = > P ( X < = x , Y < = y ) F(x,y) = P{(X<=x) 交(Y<=y)]} => P(X<=x, Y<=y) F(x,y)=P(X<=x)交(Y<=y)]=>P(X<=x,Y<=y)
2.条件概率: P ( A ∣ B ) = P ( B A ) P ( B ) P(A|B) = \frac{P(BA)}{P(B)} P(A∣B)=P(B)P(BA)
4.一些常用损失函数:
5.期望损失/风险函数/泛化误差:
这三个都是一个东西
表示 f ( x ) f(x) f(x) 关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)平均意义下的损失。
6.经验损失(损失函数):
表示 f ( x ) f(x) f(x) 关于数据集的平均损失。
7.范数
不解释了。。。自行百度吧
主要了解 L 1 L_1 L1范数和 L 2 L_2 L2范数