ML复习大纲

文章目录

    • @[toc]
      • 大纲
      • 记忆性考点:
      • 小型计算考点:
      • 大型计算考点:
      • 一、线性降维:
      • 二、非线性降维:
      • 三、特征选择:
      • 决策树
      • knn性质
      • 文本分类有哪些方法
      • 多分类的方法
      • 交叉验证,误差计算
      • 梯度下降算法的理解
      • bp神经网络
      • 训练集,测试集的划分常用划分方法
      • 集成学习的特点[仅供参考]
      • 常用距离测量方法
      • 条件熵的计算
      • 决策树id3,c4.5,cart,剪枝
      • 拉格朗日优化,对偶问题
      • 朴素贝叶斯
      • **afang降维打击分割线**
      • **一、 线性降维**
        • 1.主成分分析PCA
        • 2.线性判别分析LDA
      • **二、非线性降维**
        • 1.核主成分分析KPCA
        • 2.流行学习
      • **三、特征选择**
        • **子集搜索算法(贪心算法)**
        • **字典学习(应用条件,解决了什么问题)**
        • **压缩感知(应用条件,解决了什么问题)**


大纲

shu:
knn性质
文本分类有哪些方法
多分类的方法
梯度下降算法的理解
决策树id3,c4.5,cart,剪枝
构成随机森林的方法
基尼指数的求解
bp神经网络
训练集,测试集的划分常用划分方法
常用距离测量方法
监督学习算法(普遍的特点)
集成学习的特点
条件熵的计算
线性回归模型求目标函数,计算阶函数
拉格朗日优化,对偶问题
神经网络的逻辑判断
交叉测试,误差计算

fang:
数据线性降维,数据非线性降维,特征选择
一、线性降维:pca降维方法(思路)。pca降维方法解决了什么样的问题[只要看pca降维的依据就好了],无偏估计,协方差矩阵,特征值的分解,svd的分解。
lda与pca的区别是什么?三个矩阵:类内散布矩阵、类间散布矩阵、总体散布矩的定义
二、非线性降维:kpca和流行学习
kpca:核函数定义,与高维空间样本有什么样对应关系,投影特征向量,投影矩阵的计算
流行学习:mds算法它的目标,特点,smop等
三、特征选择:
子集搜索算法(贪心算法)
字典学习和压缩感知的应用条件,解决了什么问题

记忆性考点:

knn性质

文本分类有哪些方法
多分类的方法
交叉测试,误差计算
梯度下降算法的理解
bp神经网络
训练集,测试集的划分常用划分方法
集成学习的特点

小型计算考点:

​ 常用距离测量方法
​ 基尼指数的求解
​ 条件熵的计算

大型计算考点:

决策树id3,c4.5,cart,剪枝
拉格朗日优化,对偶问题

afang专属考点:

一、线性降维:

​ pca降维方法(思路)
​ pca降维方法解决了什么样的问题[只要看pca降维的依据就好了]
​ 无偏估计,协方差矩阵,特征值的分解,svd的分解。
​ lda与pca的区别是什么
​ 三个矩阵:类内散布矩阵、类间散布矩阵、总体散布矩的定义

二、非线性降维:

​ kpca:
​ 核函数定义,与高维空间样本有什么样对应关系
​ 投影特征向量,投影矩阵的计算
​ 流行学习:
​ mds算法它的目标,特点,smop等

三、特征选择:

​ 子集搜索算法(贪心算法)
​ 字典学习和压缩感知的应用条件,解决了什么问题


决策树


knn性质

  • 基于某种距离度量(通常是欧)找出训练集中与其最靠近的k个训练样例,然后基于这k个邻居的信息进行预测或分类
  • 由于仅仅读取样本,计算距离,无明显训练过程 =>懒惰学习方法
  • K值的选择:
    • 过小:噪声敏感,模型复杂,易过拟合
    • 过大:模型简单,可减小误差,但会使得与输入不相似的训练样本也对预测起作用,特别的k=m时结果将固定
    • k值的选择:奇,交叉验证
  • 分类决策规则:多数投票
  • kd树:
    ML复习大纲_第1张图片
  • 其他:
    • 属性尺度影响:归一化,如x=(x-min)/(max-min)
    • 危险样例:托梅克(Tomck)连接技术检测

文本分类有哪些方法

​ 包括8种传统算法:knn、决策树、多层感知器、朴素贝叶斯、逻辑回归和支持向量机;4种集成学习算法:随机森林、AdaBoost、lightGBM和xgBoost;2种深度学习算法:前馈神经网络和LSTM。

​ 相似度计算:如 : 文本转为向量,a = [1, 2 ,0, …, 1] ,向量转为相似度计算:
c o s ( θ ) = a ∗ b ∣ ∣ a ∣ ∣ ∗ ∣ ∣ b ∣ ∣ cos(\theta) = \frac {a * b}{ || a || * || b||} cos(θ)=abab

多分类的方法

  1. softmax回归

  2. 多个二分类器的组合(OvR):n个,只在对应的分类器输出1,其他都输出0,如果多个输出1,需增加一层分类器,选择权值最大的类别

  3. 一对一(OvO):需要训练 n(n-1)/2个分类器

    ML复习大纲_第2张图片

交叉验证,误差计算

​ 交叉验证:

for k in range(n):
	train( (1~k-1) 和 (k+1~n))
    test( k )
avg(reslut)

梯度下降算法的理解

  • 初始化w(random),沿着负梯度方向迭代,更新后的w是的损失函数J更小,寻找局部最优解

  • 更新方法有随机梯度下降和批量梯度下降,批量梯度下降会在读入批量的输入后加权平均来更新w

bp神经网络

  • sigmoid:
    f ( x ) = 1 1 + e − x f ( x ) ˙ = f ( x ) ( 1 − f ( x ) ) f(x) = \frac{1}{1+e^{-x}} \\ \dot{f(x)} = f(x)(1-f(x)) f(x)=1+ex1f(x)˙=f(x)(1f(x))

  • 目标:最小化网络误差
    E k = 1 2 ∑ j = 1 l ( y ^ j k − y j k ) 2 E_k = \frac{1}{2} \sum_{j=1}^l (\hat y_j^k - y_j^k )^2 Ek=21j=1l(y^jkyjk)2

  • 参数个数 w = 两个全连接层个数乘积之和,b = 隐藏层和输出层神经元个数之和

  • 过拟合:

    • 早停
    • 正则化
  • 局部最小---->全局最小:

    • 随机初始化,寻找所有的局部最优
    • 模拟退火,一定概率接受更差的结果,在局部最小点发现附近更差时不停止
    • 随机梯度下降
  • relu:

    • 梯度在求导后会以乘积的方式不停传递,sigmoid函数在两侧梯度极小,所以经过多层传播连乘之后会出现梯度消失的现象,而relu函数大于0部分梯度为常数,依然可以保留除数的特征
    • 反向计算的计算量比sigmoid小很多
    • relu函数小于0部分输出为0,增加了稀疏性,缓解过拟合

训练集,测试集的划分常用划分方法

​ 将D划分为两个不想交的集合S和T,划分尽可能保持数据的一致性,然后采用交叉验证

集成学习的特点[仅供参考]


基学习器之间关系分类:

  • 基学习器之间强依赖:Boosting、提升树
  • 基学习器不存在强依赖:Bagging、随机森林
优点 缺点
Bagging 泛化能力强、可以处理连续and离散 训练误差大
随机森林 准确率高、可以处理连续and离散
可以并行
易过拟合、黑盒
Adaboost 泛化能力强、适用广 基学习器数目不好设定,
可用交叉验证确定
提升树 可以处理连续and离散 基学习器之间存在依赖
无法并行

Bagging:

  • 每个训练子集分配一个基学习器,投票 => 分类问题,avg => 回归问题
  • 时间复杂度 ≈ 不投票的时间复杂度

随机森林:

  • 模型的预测结果等于子树的结构加权平均
  • 随机训练子集+随机属性+随机阈值

Boosting:

  • 并非独立的基学习器,而是寻找互补的基学习器
  • 夏皮儿提升:当前基学习器结果中取50%正确+50%错误作为下一个基学习期的训练子集,三个基学习期组成一个三元组,分类结果采用简单投票法
  • AdaBoost:减小被正确分类样本的选择概率(权重),增加被错分样本的选择概率。大部分都能分对的可以放一放,更多关注分错的样本,迭代更新样本出现的概率直至算法结束。输出结果采用加权多数表决

提升树:

  • 二叉分类树 => 分类,二叉回归树 => 回归
  • 加法模型:AdaBoost是加法模型的一种特例
  • 提升树算法:next_tree拟合当前残差

常用距离测量方法

  • 欧式:大家都用的那种

  • 曼哈顿:直角三角形的直角边之和

  • 闵可夫斯基:推广的欧式
    d ( A , B ) = ( ∑ k = 1 n ( ∣ x k − y k ∣ p ) ) 1 p d(A,B) = (\sum_{k=1}^n (|x_k-y_k|^p))^{\frac{1}{p}} d(A,B)=(k=1n(xkykp))p1

  • 海明距离:不同字符数 101和111的海明距离为1

条件熵的计算

  • 信息量: I = -logP(x),若X、Y相互独立,则 I(x,y) = I(x) + I(y),信息量代表事件的不确定性,事件越确定,信息量越小

  • 熵:
    H ( x ) = − ∑ x x ∈ X P ( x ) l o g 2 P ( x ) H ( x ) = − p l o g 2 p − ( 1 − P ) l o g 2 ( 1 − p ) H(x) = - \sum_{x}^{x\in X} P(x) log_2P(x) \\ H(x) = - p log_2p - (1-P)log_2(1-p) H(x)=xxXP(x)log2P(x)H(x)=plog2p(1P)log2(1p)

  • 条件熵,训练集D被at划分,表示划分后的子集信息量(的期望),计算方法为对每一块划分的熵 p*H(D) 求和(在二分类下每一部分就是选择此分类数学尝试划分后的pos和neg的信息熵之和)
    H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ H ( D ∣ a t ) = ∑ i = 1 n P i H ( D i ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ ∑ k = 1 K ∣ D i k ∣ ∣ D i ∣ l o g 2 ∣ D i k ∣ ∣ D i ∣ H(D) = - \sum_{k=1}^{K} \frac {|C_k|}{ |D|} log_2\frac {|C_k|}{ |D|} \\ H(D|at) = \sum_{i=1}^{n} P_i H(D_i) = - \sum_{i=1}^{n} \frac {|D_i|}{ |D|} \sum_{k=1}^{K} \frac {|D_{ik}|}{ |D_i|} log_2\frac {|D_{ik}|}{ |D_i|} H(D)=k=1KDCklog2DCkH(Dat)=i=1nPiH(Di)=i=1nDDik=1KDiDiklog2DiDik

  • 信息增益:G(D,at) = H(D) - H(D|at),G(D,at)越大,等于 H(D|at)越小,划分后的系统确定性越大,所以每次划分应选择 G(D,at)最大的属性, at = argmax(G(D,at))

决策树id3,c4.5,cart,剪枝

  • id3:使用信息增益最大的划分,对取值较多的属性计算的信息增益会天然相对较大,但在训练集上表现未必很好,也就是泛化性能弱

  • C4.5:对于连续的训练集会进行离散化划分,划分标准为:Gr(D,at) = G(D,at)/IV(at)
    I V ( a t ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ l o g ∣ D i ∣ ∣ D ∣ IV(at) = - \sum_{i=1}^{n} \frac {|D_i|}{ |D|} log\frac {|Di|}{ |D|} IV(at)=i=1nDDilogDDi
    对于IV,取值较多的属性IV会越大,所以G(D,at)会越小,C4.5偏向于取值数目小的属性

  • 剪枝:

    • 通过对比准确率进行剪枝,准确率:e = 错分样例数,n为到达当前节点样例数,m是避免n过小修正项

    E = e + 1 n + m E = \frac{e+1}{n+m} E=n+me+1

    • 预剪枝:自顶向下,分裂前计算,比较测试集的准确率–也就是泛化能力
    • 后剪枝:自底向上,分裂后将当前节点替换为叶节点,比较测试集的准确率,选取误差最小的满足阈值的方案
  • CART:

    • 基尼指数:
      G i n i ( D ) = ∑ k = 1 K p k ( 1 − P k ) = 1 − ∑ k = 1 K p k 2 G i n i ( D , a t ) = ∑ i = 1 V ∣ D i ∣ ∣ D ∣ G i n i ( D i ) Gini(D) = \sum_{k=1}^K p_k(1-P_k) = 1- \sum_{k=1}^K p_k ^2 \\ Gini(D,at) = \sum_{i=1}^V \frac {|D_i|}{|D|} Gini(D_i) Gini(D)=k=1Kpk(1Pk)=1k=1Kpk2Gini(D,at)=i=1VDDiGini(Di)

    • 剪枝:自底向上,验证集上交叉验证

拉格朗日优化,对偶问题

  1. 优化目标:
    m i n ∣ ∣ w ∣ ∣ 2 2 (1-1) min \frac{||w||^2}{2} \tag{1-1} min2w2(1-1)
    限制条件:
    y i ( W x i ∗ b ) ≥ 1 (S.T-1) y_i(Wx_i*b) ≥ 1 \tag{S.T-1} yi(Wxib)1(S.T-1)

  2. m a x L ( x , α ) = f ( x ) 在 右 侧 这 些 条 件 成 立 时 { L ( x , α ) = f ( x ) + ∑ i = 1 k α i C i ( x ) α i ≥ 0 C i ( x ) ≤ 0 f ( x ) 、 C i ( x ) 连 续 可 微 (1-2) max L(x, \alpha ) = f(x)在右侧这些条件成立时 \begin{cases} {L(x, \alpha ) = f(x) + \sum_{i=1}^k \alpha_iC_i(x)} \\ \alpha_i ≥ 0 \\ C_i(x) \le 0 \\ f(x)、C_i(x)连续可微 \\ \end{cases} \tag{1-2} maxL(x,α)=f(x)L(x,α)=f(x)+i=1kαiCi(x)αi0Ci(x)0f(x)Ci(x)(1-2)

  3. 由 公式(1-1)和(1-2)可得:
    m i n ∣ ∣ w ∣ ∣ 2 2 = m i n w , b m a x λ [ ∣ ∣ w ∣ ∣ 2 2 + ∑ i = 1 m λ i ( 1 − y i ( W x i + b ) ) ] ⋯ ⋯ f r o m ( 1 − 1 ) ( 1 − 2 ) min \frac{||w||^2}{2} = min_{w,b} max_\lambda [\frac{||w||^2}{2} + \sum_{i=1}^m \lambda_i(1-y_i(Wx_i+b)) ] \cdots\cdots {from(1-1)} {(1-2)} min2w2=minw,bmaxλ[2w2+i=1mλi(1yi(Wxi+b))]from(11)(12)
    限制条件:
    λ i ≥ 0 (S.T-2) \lambda_i ≥ 0 \tag{S.T-2} λi0(S.T-2)

  4. 对偶问题可知满足一定前提下:
    m i n w , b m a x λ L ( w , b , λ ) = m a x λ m i n w , b L ( w , b , λ ) 其 中 L ( w , b , λ ) = ∣ ∣ w ∣ ∣ 2 2 + ∑ i = 1 m λ i ( 1 − y i ( W x i + b ) ) min_{w,b} max_\lambda L(w,b,\lambda) = max_{\lambda} min_{w,b} L(w,b,\lambda) \\ 其中 L(w,b,\lambda) = \frac{||w||^2}{2} + \sum_{i=1}^m \lambda_i(1-y_i(Wx_i+b)) minw,bmaxλL(w,b,λ)=maxλminw,bL(w,b,λ)L(w,b,λ)=2w2+i=1mλi(1yi(Wxi+b))
    变化后等式右边可以计算L对w和b的偏导

  5. ∂ L ∂ w = w − ∑ i = 1 m λ i y i x i = 0 ⇒ w = ∑ i = 1 m λ i y i x i ∂ L ∂ b = − ∑ i = 1 m λ i y i = 0 ⇒ ∑ i = 1 m λ i y i = 0 (S.T-3) \frac{\partial L}{\partial w} = w - \sum_{i=1}^m \lambda_iy_ix_i = 0 \Rightarrow w =\sum_{i=1}^m \lambda_iy_ix_i \\ \frac{\partial L}{\partial b} = - \sum_{i=1}^m \lambda_iy_i = 0 \Rightarrow \sum_{i=1}^m \lambda_iy_i = 0 \tag{S.T-3} \\ wL=wi=1mλiyixi=0w=i=1mλiyixibL=i=1mλiyi=0i=1mλiyi=0(S.T-3)

    L ( w , b , λ ) = ∣ ∣ w ∣ ∣ 2 2 + ∑ i = 1 m λ i ( 1 − y i ( W x i + b ) ) = ∑ i = 1 m λ i − 1 2 ∑ i = 1 m ∑ j = 1 m λ i λ j y i y j x i x j (L) L(w,b,\lambda) = \frac{||w||^2}{2} + \sum_{i=1}^m \lambda_i(1-y_i(Wx_i+b)) \\ =\sum_{i=1}^m \lambda_i - \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m \lambda_i \lambda_j y_i y_j x_i x_j \tag{L} \\ L(w,b,λ)=2w2+i=1mλi(1yi(Wxi+b))=i=1mλi21i=1mj=1mλiλjyiyjxixj(L)

    限制条件-KKT:
    {   ( S . T − 1 ) ( S . T − 2 ) ( S . T − 3 中 式 子 2 ) λ i [ 1 − y i ( w x i + b ) ] = 0 (KKT) \begin{cases} \ { (S.T-1) } { (S.T-2) } {(S.T-3中式子2) } \tag{KKT} \\ \lambda_i[1-y_i(wx_i+b)] = 0 \end{cases} { (S.T1)(S.T2)(S.T32)λi[1yi(wxi+b)]=0(KKT)

  6. 软间隔:随着ξ足够大的时候,下列不等式变得更容易满足,相当于将原本不满足的样本也划入该类别
    y i ( W x i ∗ b ) ≥ 1 − ξ i y_i(Wx_i*b) ≥ 1 - \xi_i yi(Wxib)1ξi

  7. 核函数:L表达式中x替换为ψ(x),由于向量內积是常数,当ψ(x)与ψ(x) 的乘积可以写成x与x的乘积的表达式的时候,L末尾的ψ(x) * ψ(x) 可以通过计算 x * x 简单变换得到,w的计算同理

朴素贝叶斯

  • 目标:给定输入求分类y

  • 推导:
    y ^ = a r g m a x P ( y ∣ x ) = a r g m a x P ( x ∣ y ) ∗ P ( y ) P ( x ) \hat y = argmax P_{(y|x)} = argmax \frac {P_{(x|y)}*P_{(y)}}{P_{(x)}} y^=argmaxP(yx)=argmaxP(x)P(xy)P(y)
    相对于对后面这个表达式求最大值,二分类时无论是正样本的y还是负样本的y它们的P(x)是同一个,所以只需要比较
    y ^ = a r g m a x P ( x ∣ y ) ∗ P ( y ) \hat y =argmax {P_{(x|y)}*P_{(y)}} y^=argmaxP(xy)P(y)
    当分类之间相互独立时有:
    y ^ = a r g m a x ∏ j = 1 P P x j ∣ y P ( y ) \hat y = argmax \prod_{j=1}^P P_{x_j | y} P_{(y)} y^=argmaxj=1PPxjyP(y)


afang降维打击分割线

降维:是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的

降维算法(非老师画的重点):主成分分析(PCA)、奇异值分解(SVD)、因子分析(FA)、独立成分分析(ICA)

一、 线性降维

1.主成分分析PCA

​ PCA是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。将n维特征映射到k(k

​ n维数据的k维特征可以看成数据在k维坐标轴中的各个方向(基向量上)的投影,k中的每个维度相当于一个特征,好的投影希望能够满足:

  1. 保留的特征尽可能多:极端点如果在一个维度所有数据投影到一个点,那保留的特征个数就为1,这个投影就毫无意义, 选取的每个投影维度都使得数据投影后尽可能分散,也就是在这个维度(基向量)下方差尽可能大
  2. 每个投影维度之间关联尽可能小:如果数据在一个维度的投影效果最好,那么在这个维度偏移任意小的角度内的投影也是非常好的,但是这两个投影之间相关度太强导致第二个投影几乎是毫无帮助的,如果想减少这种关联可以使用向量正交
  3. 等价于各个特征之间协方差为0,每个特征上方差尽可能大:N 维向量降为 K 维, 即选择 K 个单位正交基, 使原始数据变换后各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下, 取最大的 K 个方差)

数据特征的降维(非老师画的重点):计算数据矩阵的协方差矩阵—>得到特征值,特征向量—>选择特征值最大的k个特征所对应的特征向量组成矩阵

计算协方差矩阵的特征值,特征向量(非老师画的重点):基于特征值分解协方差矩阵实现PCA算法;基于奇异值分解SVD协方差矩阵实现PCA算法。

**协方差(非老师画的重点):**公式略

协方差矩阵:

ML复习大纲_第3张图片

无偏估计:多次采样,取均值,避免有偏估计。

特征值分解:特征向量<—>变换的方向,特征值<—>变换的大小。对于高维矩阵,根据特征值排列,通过前n个特征向量,近似这个矩阵的变换,即为PCA的原理基础。

奇异值分解SVD:估计不考。。。。

2.线性判别分析LDA

是目前数据挖掘领域中比较经典且热门的一种有监督的算法。从降维的层面考虑,其也是在寻找一个投影矩阵,使得投影之后数据样本,同类的接近,而不同类的远离。
LDA 与PCA的区别

· PCA为非监督降维,LDA为有监督降维

· PCA希望投影后的数据方差尽可能的大(最大可分性),因为其假设方差越多,则所包含的信息越多;而LDA则希望投影后相同类别的组内方差小,而组间方差大。LDA能合理运用标签信息,使得投影后的维度具有判别性,不同类别的数据尽可能的分开

LDA的三个散布矩阵定义

类内散布矩阵:衡量映射后各自的密度程度

类间散布矩阵:衡量不同类别间的距离

总体散布矩阵:又称混合散布矩阵,为类内散布矩阵和类间散布矩阵之和

二、非线性降维

1.核主成分分析KPCA

核函数的定义:可以直接得到低维数据映射到高维后的内积,而忽略映射函数具体是什么。

与高位空间样本有什么样对应关系:利用核技巧将低维线性不可分的输入空间映射到线性可分的高维特征空间中,然后对特征空间进行PCA降维。

2.流行学习

流行学习(manifold learning):从高维的曲线曲面这种流行上提取特征反射到低维上

MDS(多维缩放)算法的目标及特点:要求原始空间中样本之间的距离在低维空间中得以保持。

ISOMAP与MDS的区别:

MDS降维是一组对象之间的距离可视化表示,也可以做一种无监督降维算法使用,而ISOMAP是在MDS算法基础上衍生出的一种非迭代的全局优化算法,它是一种等距离映射算法,也就是说降维后的点,两两之间距离不变,这个距离是测地线距离。

ISOMAP算法引进了邻域图,样本只与其相邻的样本连接,他们之间的距离可直接计算,较远的点可通过最小路径算出距离,在此基础上进行降维保距。

MDS和ISOMAP都是保留全局特征的非线性数据降维算法,且出发点都是基于距离保持。不同的是MDS是基于欧式距离,ISOMAP则是测地线距离。
ML复习大纲_第4张图片

LLE与ISOMAP相比,LLE的特点:

ISOMAP是保持全局的结构信息;LLE是保持局部的结构信息,考虑局部邻域信息,局部信息的重叠能够提供全局的信息。

全局算法要求流形必须是凸结构的,计算时间复杂度高。局部算法只考虑流形上近邻点之间的关系,不要求流形必须是凸结构的,适用范围较广。

LLE不需要计算距离矩阵,仅仅需要计算稀疏矩阵,大大减少了计算量。对于数据稀疏的数据集,数据集之间的关联性弱,局部信息的重叠不可能反映整体的全局结构,影响降维效果。

三、特征选择

目标:尽可能保留更多的信息的前提下维度尽可能少

子集搜索算法(贪心算法)

前向搜索:最优子集初始为空集,逐渐增加相关特征

后向搜索:从完整的特征集合开始,逐渐减少特征

双向搜索:每一轮逐渐增加相关特征,同时减少无关特征

字典学习(应用条件,解决了什么问题)

为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从而使学习任务得以简化,模型复杂度得以降低。

压缩感知(应用条件,解决了什么问题)

也称为压缩采样或系数采样,其基本思想是一种基于稀疏表示的信号压缩和重构技术。如果信号在正交空间具有稀疏性(即可压缩性),就能以远低于奈奎斯特采样频率的速率采样该信号,最后通过优化算法高概率重建出原信号。目的是从尽量少的数据中提取更多的信息。

你可能感兴趣的:(水)