机器学习课程复习

主成分分析(PCA)

原理
机器学习课程复习_第1张图片
当样本数远小于特征数怎么办

机器学习课程复习_第2张图片
与奇异值分解的异同
机器学习课程复习_第3张图片

CNN

卷积和池化工作原理
机器学习课程复习_第4张图片
池化也叫子采样
机器学习课程复习_第5张图片
CNN过拟合风险措施
机器学习课程复习_第6张图片

SGD

机器学习课程复习_第7张图片

机器学习课程复习_第8张图片

核方法

核方法是一类把低维空间的非线性可分问题,转化为高维空间的线性可分问题的方法。核方法的理论基础是Cover’s theorem,指的是对于非线性可分的训练集,可以大概率通过将其非线性映射到一个高维空间来转化成线性可分的训练集。

K-means和谱聚类

kmeans是一种基于距离的聚类算法,它将数据点划分为k个簇,使得每个簇内的数据点与其质心(簇内数据点的平均值)的距离之和最小。

谱聚类是一种基于图论的聚类算法,它将数据点看作图中的节点,根据数据点之间的相似度构建一个邻接矩阵,然后通过对邻接矩阵进行特征分解,得到一个低维空间中的嵌入表示,再在这个空间中用kmeans进行聚类。

kmeans和谱聚类各有优缺点:

  • kmeans优点:简单、快速、易于实现;缺点:需要预先指定k值;对异常值敏感;假设簇是球形或圆形;对初始质心选择敏感;可能陷入局部最优解。
  • 谱聚类优点:不需要预先指定k值;对异常值不敏感;不假设簇是特定形状;能够发现非凸或连通性强的簇;缺点:计算量大,需要存储和分解邻接矩阵;对相似度度量选择敏感;可能受到噪声或重复值的影响。

数据有m种表示,如何设计融合这些不同特征的聚类算法
机器学习课程复习_第9张图片
机器学习课程复习_第10张图片
机器学习课程复习_第11张图片

感知机

迭代上界计算
机器学习课程复习_第12张图片
处理非线性可分数据
机器学习课程复习_第13张图片

SVM

使用核函数SVM的原始优化目标是:
min ⁡ w , b 1 2 ∣ w ∣ 2 + C ∑ i = 1 n ξ i   \min_{w,b} \frac{1}{2} |w|^2 + C \sum_{i=1}^n \xi_i \ w,bmin21w2+Ci=1nξi 
s . t . y i ( w ⊤ ϕ ( x i ) + b ) ≥ 1 − ξ i , i = 1 , … , n   ξ i ≥ 0 , i = 1 , … , n s.t. y_i (w^\top \phi(x_i) + b) \geq 1 - \xi_i, i = 1,\dots,n \ \xi_i \geq 0, i = 1,\dots,n s.t.yi(wϕ(xi)+b)1ξi,i=1,,n ξi0,i=1,,n

其中 ϕ ( x ) \phi(x) ϕ(x)表示将 x x x映射后的特征向量。

推导其对偶形式如下:

首先构造拉格朗日函数:

L ( w , b , ξ , α , β ) = 1 2 ∣ w ∣ 2 + C ∑ i = 1 n ξ i − ∑ i = 1 n α i [ y i ( w ⊤ ϕ ( x i ) + b ) − 1 + ξ i ] − ∑ i = 1 n β i ξ i L(w,b,\xi,\alpha,\beta) = \frac{1}{2} |w|^2 + C \sum_{i=1}^n \xi_i - \sum_{i=1}^n \alpha_i [y_i (w^\top \phi(x_i) + b) - 1 + \xi_i] - \sum_{i=1}^n \beta_i\xi_i L(w,b,ξ,α,β)=21w2+Ci=1nξii=1nαi[yi(wϕ(xi)+b)1+ξi]i=1nβiξi

其中 α \alpha α β \beta β是拉格朗日乘子。

然后令 L L L w , b , ξ w,b,\xi w,b,ξ求偏导并令其为零,得到:

w = ∑ i = 1 n α i y i ϕ ( x i )   0 = ∑ i = 1 n α i y i   C − α − β = 0 w = \sum_{i=1}^n\alpha_i y_i\phi(x_i) \ 0 = \sum_{i=1}^n\alpha_i y_i \ C-\alpha-\beta = 0 w=i=1nαiyiϕ(xi) 0=i=1nαiyi Cαβ=0

代入 L L L中,并去掉常数项,得到对偶问题:

max ⁡ α W ( α ) = − 1 2 ∑ i , j α i α j y i y j K ( x i x j ) + ∑ i α i   \max_\alpha W(\alpha) = -\frac{1}{2}\sum_{i,j}\alpha_i\alpha_j y_ i y_j K(x_ix_j)+\sum_{i}\alpha_ i\ αmaxW(α)=21i,jαiαjyiyjK(xixj)+iαi  s . t . 0 ⩽ a i ⩽ C , i = 1 , … , N   0 = ∑ i α i y i , i = 1 , … , N s.t. 0\leqslant a_ i\leqslant C,i= 1,…,N\ 0=\sum_{i}\alpha_ iy_ i,i= 1,…,N s.t.0aiC,i=1,,N 0=iαiyi,i=1,,N

其中 K ( x i x j ) = < ϕ ( x i ) , ϕ ( x j ) > K(x_ix_j)=<\phi(x_ i),\phi(x_ j)> K(xixj)=<ϕ(xi),ϕ(xj)>是核函数。

最终分类模型是:

f ( x ) = s i g n ( ∑ j α j y j K ( x , x j ) + b ) f(x)=sign(\sum_{j}\alpha_jy_jK(x,x_j)+b) f(x)=sign(jαjyjK(x,xj)+b)
也可以是
机器学习课程复习_第14张图片

随机梯度下降算法以高效地求解大规模核SVM对偶问题的思路如下:
初始化和
对于每个样本,计算和损失函数
如果损失函数大于零,则更新和
如果损失函数等于零,则不更新参数
循环直到收敛或达到最大迭代次数
其中是学习率

机器学习课程复习_第15张图片
机器学习课程复习_第16张图片

你可能感兴趣的:(机器学习,聚类,算法)