shu:
knn性质
文本分类有哪些方法
多分类的方法
梯度下降算法的理解
决策树id3,c4.5,cart,剪枝
构成随机森林的方法
基尼指数的求解
bp神经网络
训练集,测试集的划分常用划分方法
常用距离测量方法
监督学习算法(普遍的特点)
集成学习的特点
条件熵的计算
线性回归模型求目标函数,计算阶函数
拉格朗日优化,对偶问题
神经网络的逻辑判断
交叉测试,误差计算
fang:
数据线性降维,数据非线性降维,特征选择
一、线性降维:pca降维方法(思路)。pca降维方法解决了什么样的问题[只要看pca降维的依据就好了],无偏估计,协方差矩阵,特征值的分解,svd的分解。
lda与pca的区别是什么?三个矩阵:类内散布矩阵、类间散布矩阵、总体散布矩的定义
二、非线性降维:kpca和流行学习
kpca:核函数定义,与高维空间样本有什么样对应关系,投影特征向量,投影矩阵的计算
流行学习:mds算法它的目标,特点,smop等
三、特征选择:
子集搜索算法(贪心算法)
字典学习和压缩感知的应用条件,解决了什么问题
knn性质
文本分类有哪些方法
多分类的方法
交叉测试,误差计算
梯度下降算法的理解
bp神经网络
训练集,测试集的划分常用划分方法
集成学习的特点
常用距离测量方法
基尼指数的求解
条件熵的计算
决策树id3,c4.5,cart,剪枝
拉格朗日优化,对偶问题
afang专属考点:
pca降维方法(思路)
pca降维方法解决了什么样的问题[只要看pca降维的依据就好了]
无偏估计,协方差矩阵,特征值的分解,svd的分解。
lda与pca的区别是什么
三个矩阵:类内散布矩阵、类间散布矩阵、总体散布矩的定义
kpca:
核函数定义,与高维空间样本有什么样对应关系
投影特征向量,投影矩阵的计算
流行学习:
mds算法它的目标,特点,smop等
子集搜索算法(贪心算法)
字典学习和压缩感知的应用条件,解决了什么问题
包括8种传统算法:knn、决策树、多层感知器、朴素贝叶斯、逻辑回归和支持向量机;4种集成学习算法:随机森林、AdaBoost、lightGBM和xgBoost;2种深度学习算法:前馈神经网络和LSTM。
相似度计算:如 : 文本转为向量,a = [1, 2 ,0, …, 1] ,向量转为相似度计算:
c o s ( θ ) = a ∗ b ∣ ∣ a ∣ ∣ ∗ ∣ ∣ b ∣ ∣ cos(\theta) = \frac {a * b}{ || a || * || b||} cos(θ)=∣∣a∣∣∗∣∣b∣∣a∗b
softmax回归
多个二分类器的组合(OvR):n个,只在对应的分类器输出1,其他都输出0,如果多个输出1,需增加一层分类器,选择权值最大的类别
一对一(OvO):需要训练 n(n-1)/2个分类器
交叉验证:
for k in range(n):
train( (1~k-1) 和 (k+1~n))
test( k )
avg(reslut)
初始化w(random),沿着负梯度方向迭代,更新后的w是的损失函数J更小,寻找局部最优解
更新方法有随机梯度下降和批量梯度下降,批量梯度下降会在读入批量的输入后加权平均来更新w
sigmoid:
f ( x ) = 1 1 + e − x f ( x ) ˙ = f ( x ) ( 1 − f ( x ) ) f(x) = \frac{1}{1+e^{-x}} \\ \dot{f(x)} = f(x)(1-f(x)) f(x)=1+e−x1f(x)˙=f(x)(1−f(x))
目标:最小化网络误差
E k = 1 2 ∑ j = 1 l ( y ^ j k − y j k ) 2 E_k = \frac{1}{2} \sum_{j=1}^l (\hat y_j^k - y_j^k )^2 Ek=21j=1∑l(y^jk−yjk)2
参数个数 w = 两个全连接层个数乘积之和,b = 隐藏层和输出层神经元个数之和
过拟合:
局部最小---->全局最小:
relu:
将D划分为两个不想交的集合S和T,划分尽可能保持数据的一致性,然后采用交叉验证
基学习器之间关系分类:
优点 | 缺点 | |
---|---|---|
Bagging | 泛化能力强、可以处理连续and离散 | 训练误差大 |
随机森林 | 准确率高、可以处理连续and离散 可以并行 |
易过拟合、黑盒 |
Adaboost | 泛化能力强、适用广 | 基学习器数目不好设定, 可用交叉验证确定 |
提升树 | 可以处理连续and离散 | 基学习器之间存在依赖 无法并行 |
Bagging:
随机森林:
Boosting:
提升树:
欧式:大家都用的那种
曼哈顿:直角三角形的直角边之和
闵可夫斯基:推广的欧式
d ( A , B ) = ( ∑ k = 1 n ( ∣ x k − y k ∣ p ) ) 1 p d(A,B) = (\sum_{k=1}^n (|x_k-y_k|^p))^{\frac{1}{p}} d(A,B)=(k=1∑n(∣xk−yk∣p))p1
海明距离:不同字符数 101和111的海明距离为1
信息量: I = -logP(x),若X、Y相互独立,则 I(x,y) = I(x) + I(y),信息量代表事件的不确定性,事件越确定,信息量越小
熵:
H ( x ) = − ∑ x x ∈ X P ( x ) l o g 2 P ( x ) H ( x ) = − p l o g 2 p − ( 1 − P ) l o g 2 ( 1 − p ) H(x) = - \sum_{x}^{x\in X} P(x) log_2P(x) \\ H(x) = - p log_2p - (1-P)log_2(1-p) H(x)=−x∑x∈XP(x)log2P(x)H(x)=−plog2p−(1−P)log2(1−p)
条件熵,训练集D被at划分,表示划分后的子集信息量(的期望),计算方法为对每一块划分的熵 p*H(D) 求和(在二分类下每一部分就是选择此分类数学尝试划分后的pos和neg的信息熵之和)
H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ H ( D ∣ a t ) = ∑ i = 1 n P i H ( D i ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ ∑ k = 1 K ∣ D i k ∣ ∣ D i ∣ l o g 2 ∣ D i k ∣ ∣ D i ∣ H(D) = - \sum_{k=1}^{K} \frac {|C_k|}{ |D|} log_2\frac {|C_k|}{ |D|} \\ H(D|at) = \sum_{i=1}^{n} P_i H(D_i) = - \sum_{i=1}^{n} \frac {|D_i|}{ |D|} \sum_{k=1}^{K} \frac {|D_{ik}|}{ |D_i|} log_2\frac {|D_{ik}|}{ |D_i|} H(D)=−k=1∑K∣D∣∣Ck∣log2∣D∣∣Ck∣H(D∣at)=i=1∑nPiH(Di)=−i=1∑n∣D∣∣Di∣k=1∑K∣Di∣∣Dik∣log2∣Di∣∣Dik∣
信息增益:G(D,at) = H(D) - H(D|at),G(D,at)越大,等于 H(D|at)越小,划分后的系统确定性越大,所以每次划分应选择 G(D,at)最大的属性, at = argmax(G(D,at))
id3:使用信息增益最大的划分,对取值较多的属性计算的信息增益会天然相对较大,但在训练集上表现未必很好,也就是泛化性能弱
C4.5:对于连续的训练集会进行离散化划分,划分标准为:Gr(D,at) = G(D,at)/IV(at)
I V ( a t ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ l o g ∣ D i ∣ ∣ D ∣ IV(at) = - \sum_{i=1}^{n} \frac {|D_i|}{ |D|} log\frac {|Di|}{ |D|} IV(at)=−i=1∑n∣D∣∣Di∣log∣D∣∣Di∣
对于IV,取值较多的属性IV会越大,所以G(D,at)会越小,C4.5偏向于取值数目小的属性
剪枝:
E = e + 1 n + m E = \frac{e+1}{n+m} E=n+me+1
CART:
基尼指数:
G i n i ( D ) = ∑ k = 1 K p k ( 1 − P k ) = 1 − ∑ k = 1 K p k 2 G i n i ( D , a t ) = ∑ i = 1 V ∣ D i ∣ ∣ D ∣ G i n i ( D i ) Gini(D) = \sum_{k=1}^K p_k(1-P_k) = 1- \sum_{k=1}^K p_k ^2 \\ Gini(D,at) = \sum_{i=1}^V \frac {|D_i|}{|D|} Gini(D_i) Gini(D)=k=1∑Kpk(1−Pk)=1−k=1∑Kpk2Gini(D,at)=i=1∑V∣D∣∣Di∣Gini(Di)
剪枝:自底向上,验证集上交叉验证
优化目标:
m i n ∣ ∣ w ∣ ∣ 2 2 (1-1) min \frac{||w||^2}{2} \tag{1-1} min2∣∣w∣∣2(1-1)
限制条件:
y i ( W x i ∗ b ) ≥ 1 (S.T-1) y_i(Wx_i*b) ≥ 1 \tag{S.T-1} yi(Wxi∗b)≥1(S.T-1)
m a x L ( x , α ) = f ( x ) 在 右 侧 这 些 条 件 成 立 时 { L ( x , α ) = f ( x ) + ∑ i = 1 k α i C i ( x ) α i ≥ 0 C i ( x ) ≤ 0 f ( x ) 、 C i ( x ) 连 续 可 微 (1-2) max L(x, \alpha ) = f(x)在右侧这些条件成立时 \begin{cases} {L(x, \alpha ) = f(x) + \sum_{i=1}^k \alpha_iC_i(x)} \\ \alpha_i ≥ 0 \\ C_i(x) \le 0 \\ f(x)、C_i(x)连续可微 \\ \end{cases} \tag{1-2} maxL(x,α)=f(x)在右侧这些条件成立时⎩⎪⎪⎪⎨⎪⎪⎪⎧L(x,α)=f(x)+∑i=1kαiCi(x)αi≥0Ci(x)≤0f(x)、Ci(x)连续可微(1-2)
由 公式(1-1)和(1-2)可得:
m i n ∣ ∣ w ∣ ∣ 2 2 = m i n w , b m a x λ [ ∣ ∣ w ∣ ∣ 2 2 + ∑ i = 1 m λ i ( 1 − y i ( W x i + b ) ) ] ⋯ ⋯ f r o m ( 1 − 1 ) ( 1 − 2 ) min \frac{||w||^2}{2} = min_{w,b} max_\lambda [\frac{||w||^2}{2} + \sum_{i=1}^m \lambda_i(1-y_i(Wx_i+b)) ] \cdots\cdots {from(1-1)} {(1-2)} min2∣∣w∣∣2=minw,bmaxλ[2∣∣w∣∣2+i=1∑mλi(1−yi(Wxi+b))]⋯⋯from(1−1)(1−2)
限制条件:
λ i ≥ 0 (S.T-2) \lambda_i ≥ 0 \tag{S.T-2} λi≥0(S.T-2)
对偶问题可知满足一定前提下:
m i n w , b m a x λ L ( w , b , λ ) = m a x λ m i n w , b L ( w , b , λ ) 其 中 L ( w , b , λ ) = ∣ ∣ w ∣ ∣ 2 2 + ∑ i = 1 m λ i ( 1 − y i ( W x i + b ) ) min_{w,b} max_\lambda L(w,b,\lambda) = max_{\lambda} min_{w,b} L(w,b,\lambda) \\ 其中 L(w,b,\lambda) = \frac{||w||^2}{2} + \sum_{i=1}^m \lambda_i(1-y_i(Wx_i+b)) minw,bmaxλL(w,b,λ)=maxλminw,bL(w,b,λ)其中L(w,b,λ)=2∣∣w∣∣2+i=1∑mλi(1−yi(Wxi+b))
变化后等式右边可以计算L对w和b的偏导
∂ L ∂ w = w − ∑ i = 1 m λ i y i x i = 0 ⇒ w = ∑ i = 1 m λ i y i x i ∂ L ∂ b = − ∑ i = 1 m λ i y i = 0 ⇒ ∑ i = 1 m λ i y i = 0 (S.T-3) \frac{\partial L}{\partial w} = w - \sum_{i=1}^m \lambda_iy_ix_i = 0 \Rightarrow w =\sum_{i=1}^m \lambda_iy_ix_i \\ \frac{\partial L}{\partial b} = - \sum_{i=1}^m \lambda_iy_i = 0 \Rightarrow \sum_{i=1}^m \lambda_iy_i = 0 \tag{S.T-3} \\ ∂w∂L=w−i=1∑mλiyixi=0⇒w=i=1∑mλiyixi∂b∂L=−i=1∑mλiyi=0⇒i=1∑mλiyi=0(S.T-3)
L ( w , b , λ ) = ∣ ∣ w ∣ ∣ 2 2 + ∑ i = 1 m λ i ( 1 − y i ( W x i + b ) ) = ∑ i = 1 m λ i − 1 2 ∑ i = 1 m ∑ j = 1 m λ i λ j y i y j x i x j (L) L(w,b,\lambda) = \frac{||w||^2}{2} + \sum_{i=1}^m \lambda_i(1-y_i(Wx_i+b)) \\ =\sum_{i=1}^m \lambda_i - \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m \lambda_i \lambda_j y_i y_j x_i x_j \tag{L} \\ L(w,b,λ)=2∣∣w∣∣2+i=1∑mλi(1−yi(Wxi+b))=i=1∑mλi−21i=1∑mj=1∑mλiλjyiyjxixj(L)
限制条件-KKT:
{ ( S . T − 1 ) ( S . T − 2 ) ( S . T − 3 中 式 子 2 ) λ i [ 1 − y i ( w x i + b ) ] = 0 (KKT) \begin{cases} \ { (S.T-1) } { (S.T-2) } {(S.T-3中式子2) } \tag{KKT} \\ \lambda_i[1-y_i(wx_i+b)] = 0 \end{cases} { (S.T−1)(S.T−2)(S.T−3中式子2)λi[1−yi(wxi+b)]=0(KKT)
软间隔:随着ξ足够大的时候,下列不等式变得更容易满足,相当于将原本不满足的样本也划入该类别
y i ( W x i ∗ b ) ≥ 1 − ξ i y_i(Wx_i*b) ≥ 1 - \xi_i yi(Wxi∗b)≥1−ξi
核函数:L表达式中x替换为ψ(x),由于向量內积是常数,当ψ(x)与ψ(x) 的乘积可以写成x与x的乘积的表达式的时候,L末尾的ψ(x) * ψ(x) 可以通过计算 x * x 简单变换得到,w的计算同理
目标:给定输入求分类y
推导:
y ^ = a r g m a x P ( y ∣ x ) = a r g m a x P ( x ∣ y ) ∗ P ( y ) P ( x ) \hat y = argmax P_{(y|x)} = argmax \frac {P_{(x|y)}*P_{(y)}}{P_{(x)}} y^=argmaxP(y∣x)=argmaxP(x)P(x∣y)∗P(y)
相对于对后面这个表达式求最大值,二分类时无论是正样本的y还是负样本的y它们的P(x)是同一个,所以只需要比较
y ^ = a r g m a x P ( x ∣ y ) ∗ P ( y ) \hat y =argmax {P_{(x|y)}*P_{(y)}} y^=argmaxP(x∣y)∗P(y)
当分类之间相互独立时有:
y ^ = a r g m a x ∏ j = 1 P P x j ∣ y P ( y ) \hat y = argmax \prod_{j=1}^P P_{x_j | y} P_{(y)} y^=argmaxj=1∏PPxj∣yP(y)
降维:是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的
降维算法(非老师画的重点):主成分分析(PCA)、奇异值分解(SVD)、因子分析(FA)、独立成分分析(ICA)
PCA是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。将n维特征映射到k(k n维数据的k维特征可以看成数据在k维坐标轴中的各个方向(基向量上)的投影,k中的每个维度相当于一个特征,好的投影希望能够满足: 数据特征的降维(非老师画的重点):计算数据矩阵的协方差矩阵—>得到特征值,特征向量—>选择特征值最大的k个特征所对应的特征向量组成矩阵 计算协方差矩阵的特征值,特征向量(非老师画的重点):基于特征值分解协方差矩阵实现PCA算法;基于奇异值分解SVD协方差矩阵实现PCA算法。 **协方差(非老师画的重点):**公式略 协方差矩阵: 无偏估计:多次采样,取均值,避免有偏估计。 特征值分解:特征向量<—>变换的方向,特征值<—>变换的大小。对于高维矩阵,根据特征值排列,通过前n个特征向量,近似这个矩阵的变换,即为PCA的原理基础。 奇异值分解SVD:估计不考。。。。 是目前数据挖掘领域中比较经典且热门的一种有监督的算法。从降维的层面考虑,其也是在寻找一个投影矩阵,使得投影之后数据样本,同类的接近,而不同类的远离。 · PCA为非监督降维,LDA为有监督降维 · PCA希望投影后的数据方差尽可能的大(最大可分性),因为其假设方差越多,则所包含的信息越多;而LDA则希望投影后相同类别的组内方差小,而组间方差大。LDA能合理运用标签信息,使得投影后的维度具有判别性,不同类别的数据尽可能的分开。 LDA的三个散布矩阵定义 类内散布矩阵:衡量映射后各自的密度程度 类间散布矩阵:衡量不同类别间的距离 总体散布矩阵:又称混合散布矩阵,为类内散布矩阵和类间散布矩阵之和 核函数的定义:可以直接得到低维数据映射到高维后的内积,而忽略映射函数具体是什么。 与高位空间样本有什么样对应关系:利用核技巧将低维线性不可分的输入空间映射到线性可分的高维特征空间中,然后对特征空间进行PCA降维。 流行学习(manifold learning):从高维的曲线曲面这种流行上提取特征反射到低维上 MDS(多维缩放)算法的目标及特点:要求原始空间中样本之间的距离在低维空间中得以保持。 ISOMAP与MDS的区别: MDS降维是一组对象之间的距离可视化表示,也可以做一种无监督降维算法使用,而ISOMAP是在MDS算法基础上衍生出的一种非迭代的全局优化算法,它是一种等距离映射算法,也就是说降维后的点,两两之间距离不变,这个距离是测地线距离。 ISOMAP算法引进了邻域图,样本只与其相邻的样本连接,他们之间的距离可直接计算,较远的点可通过最小路径算出距离,在此基础上进行降维保距。 MDS和ISOMAP都是保留全局特征的非线性数据降维算法,且出发点都是基于距离保持。不同的是MDS是基于欧式距离,ISOMAP则是测地线距离。 LLE与ISOMAP相比,LLE的特点: ISOMAP是保持全局的结构信息;LLE是保持局部的结构信息,考虑局部邻域信息,局部信息的重叠能够提供全局的信息。 全局算法要求流形必须是凸结构的,计算时间复杂度高。局部算法只考虑流形上近邻点之间的关系,不要求流形必须是凸结构的,适用范围较广。 LLE不需要计算距离矩阵,仅仅需要计算稀疏矩阵,大大减少了计算量。对于数据稀疏的数据集,数据集之间的关联性弱,局部信息的重叠不可能反映整体的全局结构,影响降维效果。 目标:尽可能保留更多的信息的前提下维度尽可能少 前向搜索:最优子集初始为空集,逐渐增加相关特征 后向搜索:从完整的特征集合开始,逐渐减少特征 双向搜索:每一轮逐渐增加相关特征,同时减少无关特征 为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从而使学习任务得以简化,模型复杂度得以降低。 也称为压缩采样或系数采样,其基本思想是一种基于稀疏表示的信号压缩和重构技术。如果信号在正交空间具有稀疏性(即可压缩性),就能以远低于奈奎斯特采样频率的速率采样该信号,最后通过优化算法高概率重建出原信号。目的是从尽量少的数据中提取更多的信息。
2.线性判别分析LDA
LDA 与PCA的区别二、非线性降维
1.核主成分分析KPCA
2.流行学习
三、特征选择
子集搜索算法(贪心算法)
字典学习(应用条件,解决了什么问题)
压缩感知(应用条件,解决了什么问题)