不用模式对应特征点在不同区域中散布。运用已知类别的训练样本进行学习,产生若干个代数界面 d ( x ⃗ ) = 0 d(\vec x)=0 d(x)=0,将特征空间划分成一些互不重叠的子区域。
表示划分界面的函数。
对于来自两类的一组模式 x ⃗ 1 , x ⃗ 2 , … , x ⃗ N \vec x_1,\vec x_2,\dots,\vec x_N x1,x2,…,xN,如果能用一个线性判别函数正确分类,则称他们是线性可分的。
一般形式是 d ( x ⃗ ) = w 1 x 1 + w 2 x 2 + ⋯ + w n x n + w n + 1 d(\vec x)=w_1x_1+w_2x_2+\dots+w_nx_n+w_{n+1} d(x)=w1x1+w2x2+⋯+wnxn+wn+1
w ⃗ \vec w w称为权矢量或系数矢量
简化为 d ( x ⃗ ) = w ⃗ ′ x ⃗ d(\vec x)=\vec w'\vec x d(x)=w′x
其中 x ⃗ = ( x 1 , x 2 , … , x n , 1 ) , w ⃗ = ( w 1 , w 2 , … , w n , w n + 1 ) \vec x=(x_1,x_2,\dots,x_n,1),\vec w=(w_1,w_2,\dots,w_n,w_{n+1}) x=(x1,x2,…,xn,1),w=(w1,w2,…,wn,wn+1)
x ⃗ \vec x x和 w ⃗ \vec w w分别称为增广特征矢量和增广权矢量。
对于两类问题
d ( x ⃗ ) = w ⃗ ′ x ⃗ { > 0 ⇒ x ⃗ ∈ ω 1 < 0 ⇒ x ⃗ ∈ ω 2 = 0 ⇒ x ⃗ ∈ ω i 或 拒 判 d(\vec x)=\vec w'\vec x\begin{cases} >0\Rightarrow\vec x\in\omega_1\\ <0\Rightarrow\vec x\in\omega_2\\ =0\Rightarrow\vec x\in\omega_i或拒判\\ \end{cases} d(x)=w′x⎩⎪⎨⎪⎧>0⇒x∈ω1<0⇒x∈ω2=0⇒x∈ωi或拒判
判别规则为:如果 { d i ( x ⃗ ) > 0 d j ( x ⃗ ) ⩽ 0 ∀ j ≠ i \begin{cases} d_i(\vec x)>0\\ d_j(\vec x)\leqslant0&\forall j\ne i \end{cases} {di(x)>0dj(x)⩽0∀j̸=i则判 x ⃗ ∈ ω i \vec x\in\omega_i x∈ωi
注意这种方法存在不确定区域
对于任意两类之间分别建立判别函数
判别规则为:如果 d i j ( x ) > 0 , ∀ j ≠ i d_{ij}(x)>0,\forall j\ne i dij(x)>0,∀j̸=i则判 x ⃗ ∈ ω i \vec x\in\omega_i x∈ωi
注意这种方法也存在不确定区域
令方法2中的判别函数为 d i j ( x ⃗ ) = d i ( x ⃗ ) − d j ( x ⃗ ) = ( ω ⃗ i − ω ⃗ j ) ′ x ⃗ d_{ij}(\vec x)=d_i(\vec x)-d_j(\vec x)=(\vec\omega_i-\vec\omega_j)'\vec x dij(x)=di(x)−dj(x)=(ωi−ωj)′x
判别规则为:如果 d i ( x ⃗ ) > d j ( x ⃗ ) , ∀ j ≠ i d_i(\vec x)>d_j(\vec x),\forall j\ne i di(x)>dj(x),∀j̸=i则判 x ⃗ ∈ ω i \vec x\in\omega_i x∈ωi
或者:如果 d i ( x ⃗ ) = max j [ d j ( x ⃗ ) ] d_i(\vec x)=\max_j[d_j(\vec x)] di(x)=maxj[dj(x)]则判 x ⃗ ∈ ω i \vec x\in\omega_i x∈ωi
思想:通过Fisher变换转换为利于分类的一维问题
方法:求权矢量 w ⃗ ⇒ \vec w\Rightarrow w⇒求满足上述目标的投影轴方向 w ⃗ 0 \vec w_0 w0和在一维空间中确定判别规则。
希望经过投影后,类内离差度越小越好,类间离差度越大越好,根据这个目标作准则函数(即Fisher准则函数),并使其最大。
算法原理步骤
如果训练模式是线性可分的,感知器算法在有限次迭代后便可以收敛到正确的解矢量。
不做要求
(下面三个了解即可)
最小错分模式数目准则
分段二次准则函数
最小方差准则及W-H算法
作非线性变换,将原来一维特征空间映射为二维特征空间,使其为线性可分的。
d ( x ⃗ ) = x ⃗ ′ W x ⃗ + w ⃗ ′ x ⃗ + w n + 1 d(\vec x)=\vec x'W\vec x+\vec w'\vec x+w_{n+1} d(x)=x′Wx+w′x+wn+1
支持向量机以训练误差作为优化问题的约束条件,以置信范围值最优化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。
由于SVM的求解最后转化为二次规划问题求解,因此SVM的解是全局唯一的最优解。
SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等许多机器学习问题中。
判决规则:
如果: l 12 ( x ⃗ ) = p ( x ⃗ ∣ ω 1 ) p ( x ⃗ ∣ ω 2 ) ≷ P ( ω 2 ) P ( ω 1 ) l_{12}(\vec x)=\dfrac{p(\vec x|\omega_1)}{p(\vec x|\omega_2)}\gtrless\dfrac{P(\omega_2)}{P(\omega_1)} l12(x)=p(x∣ω2)p(x∣ω1)≷P(ω1)P(ω2),则判 x ⃗ ∈ { ω 1 ω 2 \vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases} x∈{ω1ω2
称 l 12 ( x ⃗ ) l_{12}(\vec x) l12(x)为似然比,称 θ 12 \theta_{12} θ12为似然比阈值,记为 P ( ω 2 ) P ( ω 1 ) \dfrac{P(\omega_2)}{P(\omega_1)} P(ω1)P(ω2)。
对于多类问题,若 P ( ω i ∣ x ⃗ ) > P ( ω j ∣ x ⃗ ) , ∀ j ≠ i P(\omega_i|\vec x)>P(\omega_j|\vec x),\forall j\ne i P(ωi∣x)>P(ωj∣x),∀j̸=i,则判 x ⃗ ∈ ω i \vec x\in\omega_i x∈ωi
或者,若 P ( ω i ∣ x ⃗ ) = max j [ P ( ω j ∣ x ⃗ ) ] P(\omega_i|\vec x)=\max_j[P(\omega_j|\vec x)] P(ωi∣x)=maxj[P(ωj∣x)],则判 x ⃗ ∈ ω i \vec x\in\omega_i x∈ωi
例题:对一批人进行癌症普查,患癌症者定为属 ω 1 \omega_1 ω1类,正常者定为属 ω 2 \omega_2 ω2类。统计资料表明人们患癌的概率 P ( ω 1 ) = 0.005 P(\omega_1)=0.005 P(ω1)=0.005,从而 P ( ω 2 ) = 0.995 P(\omega_2)=0.995 P(ω2)=0.995。设有一种诊断此病的试验,其结果有阳性反应和阴性反应之分,依其作诊断。化验结果是一维离散模式特征。统计资料表明:癌症者有阳性反映的概率为0.95即 P ( x = 阳 ∣ ω 1 ) = 0.95 P(x=阳|\omega_1)=0.95 P(x=阳∣ω1)=0.95,从而可知 P ( x = 阴 ∣ ω 1 ) = 0.05 P(x=阴|\omega_1)=0.05 P(x=阴∣ω1)=0.05,正常人阳性反映的概率为0.01即 P ( x = 阳 ∣ ω 2 ) = 0.01 P(x=阳|\omega_2)=0.01 P(x=阳∣ω2)=0.01, 可知 P ( x = 阴 ∣ ω 2 ) = 0.99 P(x=阴|\omega_2)=0.99 P(x=阴∣ω2)=0.99。
问有阳性反映的人患癌症的概率有多大?按照最小误判概率准则,阳性反映者应判为哪一类?
解:
P ( ω 1 ∣ x = 阳 ) = P ( x = 阳 ∣ ω 1 ) P ( ω 1 ) P ( x = 阳 ) = P ( x = 阳 ∣ ω 1 ) P ( ω 1 ) P ( x = 阳 ∣ ω 1 ) P ( ω 1 ) + P ( x = 阳 ∣ ω 2 ) P ( ω 2 ) = 0.95 × 0.005 0.95 × 0.005 + 0.01 × 0.995 = 0.323 \begin{aligned} P(\omega_1|x=阳)&=\dfrac{P(x=阳|\omega_1)P(\omega_1)}{P(x=阳)}\\ &=\dfrac{P(x=阳|\omega_1)P(\omega_1)}{P(x=阳|\omega_1)P(\omega_1)+P(x=阳|\omega_2)P(\omega_2)}\\ &=\dfrac{0.95\times0.005}{0.95\times0.005+0.01\times0.995}\\ &=0.323 \end{aligned} P(ω1∣x=阳)=P(x=阳)P(x=阳∣ω1)P(ω1)=P(x=阳∣ω1)P(ω1)+P(x=阳∣ω2)P(ω2)P(x=阳∣ω1)P(ω1)=0.95×0.005+0.01×0.9950.95×0.005=0.323
P ( ω 2 ∣ x = 阳 ) = 1 − P ( ω 1 ∣ x = 阳 ) = 0.677 P(\omega_2|x=阳)=1-P(\omega_1|x=阳)=0.677 P(ω2∣x=阳)=1−P(ω1∣x=阳)=0.677
所以 x ⃗ ∈ ω 2 \vec x\in\omega_2 x∈ω2
或者似然比形式
l 12 ( x ) = P ( x = 阳 ∣ ω 1 ) P ( x = 阳 ∣ ω 2 ) = 0.95 0.01 = 95 l_{12}(x)=\dfrac{P(x=阳|\omega_1)}{P(x=阳|\omega_2)}=\dfrac{0.95}{0.01}=95 l12(x)=P(x=阳∣ω2)P(x=阳∣ω1)=0.010.95=95
θ 12 = P ( ω 2 ) P ( ω 1 ) = 0.995 0.005 = 197 \theta_{12}=\dfrac{P(\omega_2)}{P(\omega_1)}=\dfrac{0.995}{0.005}=197 θ12=P(ω1)P(ω2)=0.0050.995=197
∵ l 12 ( x ) < θ 12 ∴ x ∈ ω 2 \because l_{12}(x)<\theta_{12} \therefore x\in\omega_2 ∵l12(x)<θ12∴x∈ω2
例题:鱼类加工厂对鱼进行自动分类, ω 1 \omega_1 ω1:鲈鱼; ω 2 \omega_2 ω2:鲑鱼。模式特征 x = x= x=长度。
已知:先验概率 P ( ω 1 ) = 1 / 3 , P ( ω 2 ) = 1 − P ( ω 1 ) = 2 / 3 P(\omega_1)=1/3,P(\omega_2)=1-P(\omega_1)=2/3 P(ω1)=1/3,P(ω2)=1−P(ω1)=2/3
P ( x = 10 ∣ ω 1 = 0.05 ) , P ( x = 10 ∣ ω 2 = 0.5 ) P(x=10|\omega_1=0.05),P(x=10|\omega_2=0.5) P(x=10∣ω1=0.05),P(x=10∣ω2=0.5)
求:后验概率 P ( ω ∣ x = 10 ) P(\omega|x=10) P(ω∣x=10)
解法1:利用Bayes公式
P ( ω 1 ∣ x = 10 ) = P ( x = 10 ∣ ω 1 ) P ( ω 1 ) P ( x = 10 ) = P ( x = 10 ∣ ω 1 ) P ( ω 1 ) P ( x = 10 ∣ ω 1 ) P ( ω 1 ) + P ( x = 10 ∣ ω 2 ) P ( ω 2 ) = 0.05 × 1 / 3 0.05 × 1 / 3 + 0.5 × 2 / 3 = 0.048 \begin{aligned} P(\omega_1|x=10)&=\dfrac{P(x=10|\omega_1)P(\omega_1)}{P(x=10)}\\ &=\dfrac{P(x=10|\omega_1)P(\omega_1)}{P(x=10|\omega_1)P(\omega_1)+P(x=10|\omega_2)P(\omega_2)}\\ &=\dfrac{0.05\times1/3}{0.05\times1/3+0.5\times2/3}\\ &=0.048 \end{aligned} P(ω1∣x=10)=P(x=10)P(x=10∣ω1)P(ω1)=P(x=10∣ω1)P(ω1)+P(x=10∣ω2)P(ω2)P(x=10∣ω1)P(ω1)=0.05×1/3+0.5×2/30.05×1/3=0.048
P ( ω 2 ∣ x = 10 ) = 1 − P ( ω 1 ∣ x = 10 ) = 0.952 P(\omega_2|x=10)=1-P(\omega_1|x=10)=0.952 P(ω2∣x=10)=1−P(ω1∣x=10)=0.952
所以 x ⃗ ∈ ω 2 \vec x\in\omega_2 x∈ω2,是鲑鱼
解法2:似然比形式
l 12 ( x = 10 ) = P ( x = 10 ∣ ω 1 ) P ( x = 10 ∣ ω 2 ) = 0.05 0.5 = 0.1 l_{12}(x=10)=\dfrac{P(x=10|\omega_1)}{P(x=10|\omega_2)}=\dfrac{0.05}{0.5}=0.1 l12(x=10)=P(x=10∣ω2)P(x=10∣ω1)=0.50.05=0.1
判决阈值 θ 12 = P ( ω 2 ) P ( ω 1 ) = 2 / 3 1 / 3 = 2 \theta_{12}=\dfrac{P(\omega_2)}{P(\omega_1)}=\dfrac{2/3}{1/3}=2 θ12=P(ω1)P(ω2)=1/32/3=2
l 12 ( x = 10 ) < θ 12 l_{12}(x=10)<\theta_{12} l12(x=10)<θ12,所以 x ⃗ ∈ ω 2 \vec x\in\omega_2 x∈ω2,是鲑鱼
似然比形式
如果 P ( x ⃗ ∣ ω 1 ) P ( x ⃗ ∣ ω 2 ) ≷ P ( ω 2 ) ( λ 21 − λ 22 ) P ( ω 1 ) ( λ 12 − λ 11 ) \dfrac{P(\vec x|\omega_1)}{P(\vec x|\omega_2)}\gtrless\dfrac{P(\omega_2)(\lambda_{21}-\lambda_{22})}{P(\omega_1)(\lambda_{12}-\lambda_{11})} P(x∣ω2)P(x∣ω1)≷P(ω1)(λ12−λ11)P(ω2)(λ21−λ22),则判 x ⃗ ∈ { ω 1 ω 2 \vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases} x∈{ω1ω2
记似然比阈值 θ 12 = P ( ω 2 ) ( λ 21 − λ 22 ) P ( ω 1 ) ( λ 12 − λ 11 ) \theta_{12}=\dfrac{P(\omega_2)(\lambda_{21}-\lambda_{22})}{P(\omega_1)(\lambda_{12}-\lambda_{11})} θ12=P(ω1)(λ12−λ11)P(ω2)(λ21−λ22)
则判决规则为:如果 l 12 ( x ⃗ ) ≷ θ 12 l_{12}(\vec x)\gtrless\theta_{12} l12(x)≷θ12,则判 x ⃗ ∈ { ω 1 ω 2 \vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases} x∈{ω1ω2
如果相等,称任判或拒判。
使条件损失最小必然使总的平均损失最小、
当损失函数取0-1时最小损失准则等价于最小误判准则。
熵是随机变量不确定性的度量,不确定性越大,熵值越大。若随机变量退化成定值,熵为0。同理,均匀分布是最不确定的分布。
熵定义了一个概率分布函数到一个值的映射。
当熵和条件熵中的概率由数据估计得到时,所对应的熵和条件熵分别为经验熵和经验条件熵。
信息增益表示得到特征A的信息而使得类X的信息的不确定性减少的程度。
决策树对训练数据有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化能力弱,即可能发生过拟合现象。
随机森林在bagging基础上做了修改。
从样本集中用Bootstrap采样选出n个样本;
从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树;
重复以上两步m次,即建立了m棵CART决策树
这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类
硬极限函数、线性函数、对数S形函数、双曲正切S形函数
当分类效果不好时,调整神经元数目等其他参数。函数非线性程度越高,对于BP网络要求越高,则相同的网络逼近效果要差一些,因曾神经元数目对于网络逼近效果也有一定影响,一般来说,隐层神经元数目越多,则BP网络逼近非线性函数的能力越强。
机器学习中,获得好的特征是识别成功的关键
人工神经网络(BP算法):—虽被称作多层感知机,但实际是种只含有一层隐层节点的浅层模型
SVM、Boosting、最大熵方法(如LR,Logistic Regression):带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)的浅层模型
局限性:有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限。
可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示。
相同点:二者均采用分层结构,系统包括输入层、隐层(多层)、输出层组成的多层网络
不同点:
这一步是在第一步学习获得各层参数进的基础上,利用梯度下降法去微调整个网络参数。
深度学习的第一步实质上是一个网络参数初始化过程。深度学习模型是通过无监督学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。
局部感受野、权值共享、时间或空间子采样
构建CNN模型需要大规模有标签数据;处理大尺寸图像耗时较长
在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,
特征提取的目的是使在最小维数特征空间中类间距离较大,类内距离较小。
直接选择法,变换法
有限离散K-L变换(DKLT),是一种基于目标统计特性的最佳正交变换。
取x的自相关阵Rx或协方差阵Cx的特征矢量矩阵的转置作为变换矩阵的变换称为离散K-L变换。
x ⃗ = T ′ − 1 y ⃗ = T y ⃗ = ∑ i = 1 n y i t ⃗ i \vec x=T'^{-1}\vec y=T\vec y=\sum_{i=1}^{n}y_i\vec t_i x=T′−1y=Ty=i=1∑nyiti
λ i ( R x ⃗ ) ⩾ λ i ( C x ⃗ ) \lambda_i(R_{\vec x})\geqslant\lambda_i(C_{\vec x}) λi(Rx)⩾λi(Cx)
这表明对于相同的m,第一种估计式比第二种估计式的均方差大。
汉字、字符、语言、图像、生物的识别
以结构基元为基础,利用模式的结构信息完成分类的过程。也称为句法模式识别。
指构成模式结构信息的基本单元,本身不包含有意义的结构信息。
语言
符号串,树,图
用一个文法表示一个类,m类就有m个文法,然后判定未知模式遵循哪一个文法。
在学习过程中,确定基元与基元之间的关系,推断出生成景物的方法。
判决过程中,提取基元,基元连接关系,句法分析。判断类型。
模式 ↔ \leftrightarrow ↔句子
子模式 ↔ \leftrightarrow ↔词组
基元 ↔ \leftrightarrow ↔单词
组合关系 ↔ \leftrightarrow ↔自然语言的文法
符合某个文法的所有句子的集合 ↔ \leftrightarrow ↔一个模式类
用已知类别的模式样本集训练类别文法的过程
利用文法对未知类别的句法模式进行识别或分类的过程。
0型文法、1型文法、2型文法和3型文法。