李航《统计学习方法》读书笔记
目录 李航《统计学习方法》读书笔记一、知识点二、感知机三、k 近邻法四、朴素贝叶斯五、决策树六、logistic 回归和最大熵模型七、支持向量机八、提升方法九、EM 算法EM 算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计。每次迭代由两步组成:E 步,求期望 ( expectation ),M 步,求极大值 ( maximization ),直至收敛为止。十、隐马尔可夫模型 ( HMM )十一、统计学习方法总结十二、神经网络十三、K-Means十四、Bagging十五、Apriori十六、降维方法十七、引用
一、知识点
批量梯度下降 ( BGD ):每次都使用所有的 m 个样本来更新,容易找到全局最优解,但是 m 较大时速度较慢。
随机梯度下降 ( SGD ):每次只使用一个样本来更新,训练速度快,但是噪音较多,不容易找到全局最优解,以损失很小的一部分精确度和增加一定数量的迭代次数为代价,换取了总体的优化效率的提升。注意控制步长缩小,减少震荡。
小批量梯度下降 ( MBGD ):每次使用一部分样本来更新。
牛顿法:牛顿法是二次收敛,因此收敛速度快。从几何上看是每次用一个二次曲面来拟合当前所处位置的局部曲面,而梯度下降法是用一个平面来拟合。
红色的是牛顿法的迭代路径,绿色的是梯度下降法的迭代路径。牛顿法起始点不能离极小点太远,否则很可能不会拟合。
黑塞矩阵是由目标函数 f(x) 在点 X 处的二阶偏导数组成的 n*n 阶对称矩阵。
牛顿法:将 f(x) 在 x(k) 附近进行二阶泰勒展开:
其中,gk 是 f(x) 的梯度向量在 x(k) 的值,H(x(k)) 是 f(x) 的黑塞矩阵在点 x(k) 的值。牛顿法利用极小点的必要条件 f(x) 处的梯度为0,每次迭代中从点 x(k) 开始,假设,对二阶泰勒展开求偏导有,代入得到,即,以此为迭代公式就是牛顿法。
无约束优化问题:通常使用求导,使导数为零,求解候选最优值。
有等式约束的优化问题:通常使用拉格朗日乘子法,即把等式约束用拉格朗日乘子和优化问题合并为一个式子,通过对各个变量求导使其为零,求解候选最优值。拉格朗日乘数法其实是 KKT 条件在等式约束优化问题的简化版。
有不等式约束的优化问题:通常使用 KKT 条件。即把不等式约束,等式约束和优化问题合并为一个式子。假设有多个等式约束 h(x) 和不等式约束 g(x)
则不等式约束引入的KKT条件如下:
实质是最优解在 g(x)<0 区域内时,约束条件不起作用,等价于对 μ 置零然后对原函数的偏导数置零;当 g(x)=0 时与情况2相近。结合两种情况,那么只需要使 L 对 x 求导为零,使 h(x) 为零,使 μg(x) 为零三式即可求解候选最优值。
二、感知机
感知机是二类分类的线性模型,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面。是神经网络和支持向量机的基础。
模型:,w 叫作权值向量,b 叫做偏置,sign 是符号函数。
感知机的几何解释:wx+b 对应于特征空间中的一个分离超平面 S,其中 w 是 S 的法向量,b 是 S 的截距。S 将特征空间划分为两个部分,位于两个部分的点分别被分为正负两类。
策略:假设训练数据集是线性可分的,感知机的损失函数是误分类点到超平面 S 的总距离。因为误分类点到超平面S的距离是,且对于误分类的数据来说,总有成立,因此不考虑 1/||w||,就得到感知机的损失函数:,其中 M 是误分类点的集合。感知机学习的策略就是选取使损失函数最小的模型参数。
算法:感知机的最优化方法采用随机梯度下降法。首先任意选取一个超平面 w0,b0,然后不断地极小化目标函数。在极小化过程中一次随机选取一个误分类点更新 w,b,直到损失函数为0。
其中 η 表示步长。该算法的直观解释是:当一个点被误分类,就调整 w,b 使分离超平面向该误分类点接近。感知机的解可以不同。
对偶形式:假设原始形式中的 w0 和 b0 均为0,设逐步修改 w 和 b 共 n 次,令 a=nη,最后学习到的 w,b 可以表示为
那么对偶算法就变为设初始 a 和 b 均为0,每次选取数据更新 a 和 b 直至没有误分类点为止。对偶形式的意义在于可以将训练集中实例间的内积计算出来,存在 Gram 矩阵中,可以大大加快训练速度。
三、k 近邻法
k 近邻法根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。k 值的选择,距离度量及分类决策规则是 k 近邻法的三个基本要素。当 k=1 时称为最近邻算法。
kd 树就是一种对 k 维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd 树更适用于训练实例数远大于空间维数时的 k 近邻搜索。
构造,可以通过如下递归实现:在超矩形区域上选择一个坐标轴和此坐标轴上的一个切分点,确定一个超平面,该超平面将当前超矩形区域切分为两个子区域。在子区域上重复切分直到子区域内没有实例时终止。通常依次选择坐标轴和选定坐标轴上的中位数点为切分点,这样可以得到平衡 kd 树。
搜索:从根节点出发,若目标点 x 当前维的坐标小于切分点的坐标则移动到左子结点,否则移动到右子结点,直到子结点为叶结点为止。以此叶结点为 " 当前最近点 ",递归地向上回退,在每个结点:(a) 如果该结点比当前最近点距离目标点更近,则以该结点为 " 当前最近点 " ( b ) " 当前最近点 " 一定存在于该结点一个子结点对应的区域,检查该结点的另一子结点对应的区域是否与以目标点为球心,以目标点与 " 当前最近点 " 间的距离为半径的超球体相交。如果相交,移动到另一个子结点,如果不相交,向上回退。持续这个过程直到回退到根结点,最后的 " 当前最近点 " 即为最近邻点。
四、朴素贝叶斯
朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。首先学习输入/输出的联合概率分布,然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y。属于生成模型。
模型:首先学习先验概率分布,然后学习条件概率分布
如果估计实际,需要指数级的计算,所以朴素贝叶斯法对条件概率分布作了条件独立性的假设,上式变成在分类时,通过学习到的模型计算后验概率分布,由贝叶斯定理得到:
将条件独立性假设得到的等式代入,并且注意到分母都是相同的,所以得到朴素贝叶斯分类器:
朴素贝叶斯将实例分到后验概率最大的类中,这等价于期望风险最小化。
算法:使用极大似然估计法估计相应的先验概率和条件概率,计算条件独立性假设下的实例各个取值的可能性,选取其中的最大值作为输出。
用极大似然估计可能会出现所要估计的概率值为0的情况,在累乘后会影响后验概率的计算结果,使分类产生偏差。可以采用贝叶斯估计,在随机变量各个取值的频数上赋予一个正数。
Sj 为 j 属性可能取值数量,当 λ=0 时就是极大似然估计。常取 λ=1,称为拉普拉斯平滑。
如果是连续值的情况,可以假设连续变量服从高斯分布,然后用训练数据估计参数。
五、决策树
决策树是一种基本的分类与回归方法。它可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。主要优点是模型具有可读性,分类速度快。
六、logistic 回归和最大熵模型
逻辑斯谛分布:
分布函数f(x)以点(μ,1/2)为中心对称,γ的值越小,曲线在中心附近增长得越快.
逻辑斯谛回归模型:对于给定的输入 x,根据和计算出两个条件概率值的大小,将 x 分到概率值较大的那一类。将偏置 b 加入到权值向量 w 中,并在 x 的最后添加常数项1,得到和如果某事件发生的概率是 p,则该事件发生的几率 ( 此处几率指该事件发生概率与不发生概率之比 ) 是 p/1-p,对数几率是 log(p/1-p),那么,也就是说在逻辑斯谛回归模型中,输出 Y=1 的对数几率是输入 x 的线性函数,线性函数值越接近正无穷,概率值就越接近1,反之则越接近0。
似然估计:给定 x 的情况下参数 θ 是真实参数的可能性。
模型参数估计:对于给定的二分类训练数据集,对数似然函数为
也就是损失函数。其中 P(Y=1|x)=π(x),对 L(w) 求极大值,就可以得到 w 的估计值。问题变成了以对数似然函数为目标函数的最优化问题。
多项逻辑斯谛回归:当问题是多分类问题时,可以作如下推广:设 Y 有 K 类可能取值,,,实际上就是 one-vs-all 的思想,将其他所有类当作一个类,问题转换为二分类问题。
最大熵原理:学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。直观地,最大熵原理认为模型首先要满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是 " 等可能的 " 。
最大熵模型:给定训练数据集,可以确定联合分布 P(X,Y) 的经验分布和边缘分布 P(X) 的经验分布,其中 v 表示频数,N 表示样本容量。用特征函数 f(x,y)=1 描述 x 与 y 满足某一事实,可以得到特征函数关于 P(X,Y) 的经验分布的期望值和关于模型 P(Y|X) 与 P(X) 的经验分布的期望值,假设两者相等,就得到了约束条件
定义在条件概率分布 P(Y|X) 上的条件熵为,则条件熵最大的模型称为最大熵模型。
最大熵模型的学习就是求解最大熵模型的过程。等价于约束最优化问题
将求最大值问题改为等价的求最小值问题
引入拉格朗日乘子
将原始问题转换为无约束最优化的对偶问题首先求解内部的极小化问题,即求 L(P,W) 对 P(y|x) 的偏导数
并令偏导数等于0,解得
可以证明对偶函数等价于对数似然函数,那么对偶函数极大化等价于最大熵模型的极大似然估计
之后可以用最优化算法求解得到 w 。
最大熵模型与逻辑斯谛回归模型有类似的形式,它们又称为对数线性模型。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。
算法:似然函数是光滑的凸函数,因此多种最优化方法都适用。
七、支持向量机
当训练数据集线性可分时,存在无穷个分离超平面可将两类数据正确分开。利用间隔最大化得到唯一最优分离超平面和相应的分类决策函数称为线性可分支持向量机。
函数间隔:一般来说,一个点距离分离超平面的远近可以表示分类预测的确信程度。在超平面确定的情况下,|wx+b| 能够相对地表示点x距离超平面的远近,而 wx+b 与 y 的符号是否一致能够表示分类是否正确。所以可用来表示分类的正确性及确信度,这就是函数间隔。注意到即使超平面不变,函数间隔仍会受 w 和 b 的绝对大小影响。
几何间隔:一般地,当样本点被超平面正确分类时,点 x 与超平面的距离是,其中 ||w|| 是 w 的 l2 范数。这就是几何间隔的定义。定义超平面关于训练数据集 T 的几何间隔为超平面关于 T 中所有样本点的几何间隔之最小值。可知,当 ||w||=1 时几何间隔和函数间隔相等。
硬间隔最大化:对线性可分的训练集而言,这里的间隔最大化又称为硬间隔最大化。直观解释是对训练集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。求最大间隔分离超平面即约束最优化问题:
将几何间隔用函数间隔表示
并且注意到函数间隔的取值并不影响最优化问题的解,不妨令函数间隔=1,并让最大化 1/||w|| 等价为最小化 ||w||^2/2,问题变为凸二次规划问题
支持向量和间隔边界:与分离超平面距离最近的样本点的实例称为支持向量。支持向量是使最优化问题中的约束条件等号成立的点。因此对 y=+1 的正例点和 y=-1 的负例点,支持向量分别在超平面 H1:wx+b=+1 和 H2:wx+b=-1 。H1 和 H2 平行,两者之间形成一条长带,长带的宽度 称为间隔,H1 和 H2 称为间隔边界。在决定分离超平面时只有支持向量起作用,所以支持向量机是由很少的"重要的"训练样本确定的。由对偶问题同样可以得到支持向量一定在间隔边界上。
对偶算法:引进拉格朗日乘子,定义拉格朗日函数
根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:
先求对 w,b 的极小值。将 L(w,b,a) 分别对 w,b 求偏导数并令其等于0,得
代入拉格朗日函数得
这就是极小值。
接下来对极小值求对 a 的极大,即是对偶问题
将求极大转换为求极小
由KKT条件成立得到
其中 j 为使 aj>0 的下标之一。所以问题就变为求对偶问题的解 a,再求得原始问题的解 w,b,从而得分离超平面及分类决策函数可以看出 w* 和 b* 都只依赖训练数据中 ai*>0 的样本点 (xi,yi),这些实例点 xi 被称为支持向量。
如果训练数据是线性不可分的,那么上述方法中的不等式约束并不能都成立,需要修改硬间隔最大化,使其成为软间隔最大化。
线性不可分意味着某些特异点不能满足函数间隔大于等于1的约束条件,可以对每个样本点引进一个松弛变量,使函数间隔加上松弛变量大于等于1,约束条件变为,同时对每个松弛变量,支付一个代价,目标函数变为,其中 C>0 称为惩罚参数,C 值越大对误分类的惩罚也越大。新目标函数包含了两层含义:使间隔尽量大,同时使误分类点的个数尽量小。
软间隔最大化,学习问题变成如下凸二次规划问题:
可以证明 w 的解是唯一的,但 b 的解存在一个区间。线性支持向量机包含线性可分支持向量机,因此适用性更广。
对偶算法:原始问题的对偶问题是,构造拉格朗日函数
先求对 w,b,ξ 的极小值,分别求偏导并令导数为0,得
代入原函数,再对极小值求 a 的极大值,得到
利用后三条约束消去 μ,再将求极大转换为求极小,得到对偶问题
由 KKT 条件成立可以得到
j 是满足 0
支持向量:在线性不可分的情况下,将对应与 ai*>0 的样本点 (xi,yi) 的实例点xi称为支持向量。软间隔的支持向量或者在间隔边界上,或者在间隔边界与分类超平面之间,或者再分离超平面误分一侧。
合页损失函数:可以认为是0-1损失函数的上界,而线性支持向量机可以认为是优化合页损失函数构成的目标函数。
如果分类问题是非线性的,就要使用非线性支持向量机。主要特点是使用核技巧。
非线性分类问题,用线性分类方法求解非线性分类问题分为两步:首先使用一个变换将原空间的数据映射到新空间,然后在新空间里用线性分类学习方法从训练数据中学习分类模型。
核函数:设 X 是输入空间(欧式空间的子集或离散集合),H 为特征空间(希尔伯特空间),一般是高维甚至无穷维的。如果存在一个从 X 到 H 的映射使得对所有 x,z 属于 X,函数 K(x,z) 满足条件,点乘代表内积,则称 K(x,z) 为核函数。
核技巧:基本思想是通过一个非线性变换将输入空间对应于一个特征空间,使得在输入空间中的超曲面模型对应于特征空间中的超平面模型 ( 支持向量机 ) 。在学习和预测中只定义核函数 K(x,z),而不显式地定义映射函数。对于给定的核 K(x,z),特征空间和映射函数的取法并不唯一。注意到在线性支持向量机的对偶问题中,目标函数和决策函数都只涉及输入实例与实例之间的内积,xixj 可以用核函数 K(xi,xj)=Ф(xi)Ф(xj) 来代替。当映射函数是非线性函数时,学习到的含有核函数的支持向量机是非线性分类模型。在实际应用中,往往依赖领域知识直接选择核函数。
正定核:通常所说的核函数是指正定核函数。只要满足正定核的充要条件,那么给定的函数 K(x,z) 就是正定核函数。设K是定义在 X*X 上的对称函数,如果任意 xi 属于 X,K(x,z) 对应的 Gram 矩阵是半正定矩阵,则称 K(x,z) 是正定核。这一定义在构造核函数时很有用,但要验证一个具体函数是否为正定核函数并不容易,所以在实际问题中往往应用已有的核函数。
算法:选取适当的核函数 K(x,z) 和适当的参数 C,将线性支持向量机对偶形式中的内积换成核函数,构造并求解最优化问题
选择最优解 a* 的一个正分量 0
多项式核函数 ( polynomial kernel function ):
,对应的支持向量机是一个 p 次多项式分类器,分类决策函数为
高斯核函数 ( Gaussian krenel function ):
对应的支持向量机是高斯径向基函数 ( RBF ) 分类器。分类决策函数为
字符串核函数 ( string kernel function ):
核函数不仅可以定义在欧氏空间上,还可以定义在离散数据的集合上。字符串核函数给出了字符串中长度等于 n 的所有子串组成的特征向量的余弦相似度。
SMO 是一种快速求解凸二次规划问题
的算法。
基本思路是:如果所有变量都满足此优化问题的 KKT 条件,那么解就得到了。否则,选择两个变量,固定其他变量,针对这两个变量构建一个二次规划问题。不断地将原问题分解为子问题并对子问题求解,就可以求解原问题。注意子问题两个变量中只有一个是自由变量,另一个由等式约束确定。
两个变量二次规划的求解方法:假设选择的两个变量是 a1,a2,其他变量是固定的,于是得到子问题
ε 是常数,目标函数式省略了不含 a1,a2 的常数项。考虑不等式约束和等式约束,要求的是目标函数在一条平行于对角线的线段上的最优值
问题变为单变量的最优化问题。假设初始可行解为 aold,最优解为 anew,考虑沿着约束方向未经剪辑的最优解 anew,unc ( 即未考虑不等式约束 ) 。对该问题求偏导数,并令导数为0,代入原式,令
得到,经剪辑后 a2 的解是
L 与 H 是 a2new 所在的对角线段端点的界。并解得
变量的选择方法:在每个子问题中选择两个变量优化,其中至少一个变量是违反 KKT 条件的。第一个变量的选取标准是违反 KKT 条件最严重的样本点,第二个变量的选取标准是希望能使该变量有足够大的变化,一般可以选取使对应的 |E1-E2| 最大的点。在每次选取完点后,更新阈值 b 和差值 Ei 。
八、提升方法
提升 ( boosting ) 是一种常用的统计学习方法,是集成学习的一种。它通过改变训练样本的权重 ( 概率分布 ),学习多个弱分类器 ( 基本分类器 ),并将这些分类器线性组合来构成一个强分类器提高分类的性能。
AdaBoost 提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。然后采取加权多数表决的方法组合弱分类器。
算法:首先假设训练数据集具有均匀的权值分布 D1,使用具有权值分布 Dm 的训练数据集学习得到基本分类器 Gm(x),计算分类误差率和 Gm(x) 的系数,更新训练数据集的权值分布其中
Zm 是使 Dm+1 成为概率分布的规范化因子
重复上述操作 M 次后得到 M 个弱分类器,构建线性组合得到最终分类器
AdaBoost 算法也可以理解成模型为加法模型,损失函数为指数函数,学习算法为前向分步算法的二类分类学习方法。
前向分步算法:考虑加法模型其中 b(x,γm) 为基函数,γm 为基函数的参数,βm 为基函数的系数。在给定损失函数 L(y,f(x)) 的条件下,学习加法模型就是求解损失函数极小化问题
前向分步算法求解的想法是:从前往后,每一步只学习一个基函数及其系数,优化
得到参数 βm 和 γm,更新,逐步逼近优化目标。最终得到加法模型。
提升树:
提升树是模型为加法模型,算法为前向分布算法,基函数为决策树的提升方法。第 m 步的模型是,通过经验风险极小化确定下一棵决策树的参数。不同问题的提升树学习算法主要区别在于使用的损失函数不同。
二类分类问题:只需将 AdaBoost 算法中的基本分类器限制为二类分类数即可。
回归问题:如果将输入空间划分为J个互不相交的区域,并且在每个区域上确定输出的常量 Cj,那么树可表示为,
其中
提升树采用前向分步算法:
当采用平方误差损失函数时,损失变为
其中r是当前模型拟合数据的残差。每一步都只需拟合残差学习一个回归树即可。
梯度提升树 ( GBDT ):利用最速下降法的近似方法来实现每一步的优化,关键在于用损失函数的负梯度在当前模型的值作为回归问题中提升树算法中的残差的近似值,每一步以此来估计回归树叶结点区域以拟合残差的近似值,并利用线性搜索估计叶结点区域的值使损失函数最小化,然后更新回归树即可。
九、EM 算法
EM 算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计。每次迭代由两步组成:E 步,求期望 ( expectation ),M 步,求极大值 ( maximization ),直至收敛为止。
选择参数的初始值 θ(0),开始迭代。注意 EM 算法对初值是敏感的。
E 步:θ(i) 为第 i 次迭代参数θ的估计值,在第 i+1 次迭代的E步,计算
P(Z|Y,θ(i)) 是在给定观测数据 Y 和当前参数估计 θ(i) 下隐变量数据Z的条件概率分布。
M 步:求使 Q(θ,θ(i)) 极大化的 θ,确定第 i+1 次迭代的参数的估计值
重复2和3直到收敛,一般是对较小的正数 ε1 和 ε2 满足
则停止迭代。
EM 算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。可以用于生成模型的非监督学习。生成模型由联合概率分布 P(X,Y) 表示。X 为观测数据,Y 为未观测数据。
高斯混合模型 ( GMM ):高斯混合模型是指具有如下形式的概率分布模型:,其中
称为第 k 个分模型。
高斯混合模型参数估计的 EM 算法:
取参数的初始值开始迭代
E 步:计算分模型k对观测数据 yj 的响应度
M 步:计算新一轮迭代的模型参数
重复2和3直到对数似然函数
收敛。
十、隐马尔可夫模型 ( HMM )
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态序列,再由各个状态生成一个观测而产生观测随机序列的过程。
设 Q 是所有可能的状态的集合,V 是所有可能的观测的集合,I 是长度为T的状态序列,O 是对应的观测序列,A 是状态转移概率矩阵,aij 表示在时刻t处于状态 qi 的条件下在时刻 t+1 转移到状态 qj 的概率。B 是观测概率矩阵,bij 是在时刻 t 处于状态 qj 的条件下生成观测 vk 的概率。π 是初始状态概率向量,πi 表示时刻 t=1 处于状态 qi 的概率。隐马尔可夫模型由初始状态概率向量 π,状态转移概率矩阵 A 以及观测概率矩阵 B 确定。π 和 A 决定即隐藏的马尔可夫链,生成不可观测的状态序列。B 决定如何从状态生成观测,与状态序列综合确定了观测序列。因此,隐马尔可夫模型可以用三元符号表示。
监督学习:估计转移概率
和观测概率
初始状态概率 πi 的估计为 S 个样本中初始状态为 qi 的频率。
非监督学习 ( Baum-Welch 算法 ):将观测序列数据看作观测数据 O,状态序列数据看作不可观测的隐数据 I。首先确定完全数据的对数似然函数求 Q 函数
用拉格朗日乘子法极大化Q函数求模型参数
十一、统计学习方法总结
— 以下内容并非出自《统计学习方法》—
十二、神经网络
神经元 ( 感知器 ) 接收到来自 n 个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元将接收到的总输入值与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。把许多个这样的神经元按一定的层次结构连接起来就得到了神经网络。一般使用反向传播 ( BP ) 算法来进行训练。
深度神经网络 ( DNN ):可以理解为有很多隐藏层的神经网络。DNN 内部分为输入层 ( 第一层 ),隐藏层,输出层(最后一层)。层与层之间是全连接的。
卷积神经网络 ( CNN ):一般用于图像识别。通过卷积核和感受野的乘积形成卷积后的输出。在每一个卷积层之后,通常会使用一个 ReLU ( 修正线性单元 ) 函数来把所有的负激活都变为零。在几个卷积层之后也许会用一个池化层 ( 采样层 ) 来输出过滤器卷积计算的每个子区域中的最大数字或平均值。
循环神经网络 ( RNN ):如果训练样本输入是连续序列,则 DNN 和 CNN 不好解决。RNN 假设样本是基于序列的,对应的输入是样本序列中的 x(t),而模型在序列索引号 t 位置的隐藏状态 h(t) 由 x(t) 和 h(t-1) 共同决定。在任意序列索引号t有对应的模型预测输出 o(t) 。也就是说,RNN 是包含循环的网络,允许信息的持久化。
长短期记忆网络 ( LSTM ):一种特殊的 RNN,可以学习长期依赖信息。
十三、K-Means
K-Means 是无监督的聚类算法。思想是对于给定的样本集,按照样本之间的距离大小将样本集划分为 K 个簇,让簇内的点尽量紧密地连在一起,而让簇间的距离尽量的大。
十四、Bagging
Bagging 的弱学习器之间没有 boosting 那样的联系,它的特点在于 " 随机采样 ",也就是有放回采样。因此泛化能力很强。一般会随机采集和训练集样本数一样个数的样本。假设有 m 个样本,且采集 m 次,当 m 趋向无穷大时不被采集到的数据占 1/e,也就是36.8%,称为袋外数据,可以用来检测模型的泛化能力。Bagging 对于弱学习器没有限制,一般采用决策树和神经网络。
十五、Apriori
Apriori 是常用的挖掘出数据关联规则的算法,用于找出数据值中频繁出现的数据集合。一般使用支持度或者支持度与置信度的组合作为评估标准。
支持度:几个关联的数据在数据集中出现的次数占总数据集的比重
置信度:一个数据出现后。另一个数据出现的概率
Apriori 算法的目标是找到最大的 K 项频繁集。假设使用支持度来作为评估标准,首先搜索出候选1项集及对应的支持度,剪枝去掉低于支持度的1项集,得到频繁1项集。然后对剩下的频繁1项集进行连接,得到候选的频繁2项集…以此类推,不断迭代,直到无法找到频繁 k+1 项集为止,对应的频繁 k 项集的集合即为输出结果。
十六、降维方法
十七、引用