【国科大模式识别】第一次作业

【题目一】 ω max ⁡ \omega_{\max } ωmax 为类别状态, 此时对所有的 i ( i = 1 , … , c ) i(i=1, \ldots, c) i(i=1,,c), 有 P ( ω max ⁡ ∣ x ) ≥ P\left(\omega_{\max } \mid \boldsymbol{x}\right) \geq P(ωmaxx) P ( ω i ∣ x ) P\left(\omega_i \mid \boldsymbol{x}\right) P(ωix)

  1. 证明 P ( ω max ⁡ ∣ x ) ≥ 1 / c P\left(\omega_{\max } \mid \boldsymbol{x}\right) \geq 1 / c P(ωmaxx)1/c(最大值大于平均值)
    P ( ω max ⁡ ∣ x ) ≥ 1 c ∑ i = 1 c P ( ω i ∣ x ) = 1 c P\left(\omega_{\max } \mid \boldsymbol{x}\right) \geq \frac{1}{c} \sum_{i=1}^c P\left(\omega_i \mid \boldsymbol{x}\right)=\frac{1}{c} P(ωmaxx)c1i=1cP(ωix)=c1
  2. 证明对于最小错误率判定规则, 平均错误概率为
    P (  error  ) = 1 − ∫ P ( ω max ⁡ ∣ x ) p ( x ) d x P(\text { error })=1-\int P\left(\omega_{\max } \mid \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x} P( error )=1P(ωmaxx)p(x)dx

【解】 ω max  \omega_{\text {max }} ωmax  不是样本的真实类别时, 决策出错, 因此错误率为(回忆一下期望公式)
P (  error  ) = E x ( 1 − P ( ω max ⁡ ∣ x ) ) = 1 − ∫ P ( ω max ⁡ ∣ x ) p ( x ) d x P(\text { error })=\mathbb{E}_x\left(1-P\left(\omega_{\max } \mid \boldsymbol{x}\right)\right)=1-\int P\left(\omega_{\max } \mid \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x} P( error )=Ex(1P(ωmaxx))=1P(ωmaxx)p(x)dx

  1. 利用这两个结论证明 P ( e r r o r ) ≤ ( c − 1 ) / c P( error ) \leq(c-1) / c P(error)(c1)/c

【解】由 (1)(2) 的结论
P (  error  ) = 1 − ∫ P ( ω max ⁡ ∣ x ) p ( x ) d x ≤ 1 − ∫ 1 c p ( x ) d x = c − 1 c P(\text { error })=1-\int P\left(\omega_{\max } \mid \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x} \leq 1-\int \frac{1}{c} p(\boldsymbol{x}) d \boldsymbol{x}=\frac{c-1}{c} P( error )=1P(ωmaxx)p(x)dx1c1p(x)dx=cc1

  1. 描述一种情况, 在此情况下有 P ( e r r o r ) = ( c − 1 ) / c P( error )=(c-1) / c P(error)=(c1)/c

【解】当对任意类别 i i i 都有 P ( ω i ∣ x ) = 1 / c P\left(\omega_i \mid \boldsymbol{x}\right)=1 / c P(ωix)=1/c 时, P ( e r r o r ) = ( c − 1 ) / c P(error )=(c-1) / c P(error)=(c1)/c

【题目二】对于一个 c c c 类分类问题, 假设各类先验概率为 P ( ω i ) , i = 1 , … , c P\left(\omega_i\right), i=1, \ldots, c P(ωi),i=1,,c; 条件概率密度为 P ( x ∣ ω i ) , i = 1 , … , c , ( x P\left(\boldsymbol{x} \mid \omega_i\right), i=1, \ldots, c,(\boldsymbol{x} P(xωi),i=1,,c,(x 表示特征向量 ) ) ); 将第 j j j 类样本判别为第 i i i 类的损失为 λ i j \lambda_{i j} λij

  1. 请写出贝叶斯风险最小决策和最小错误率决策的决策规则

【解】最小风险决策:
argmin ⁡ i R ( α i ∣ x ) \underset{i}{\operatorname{argmin}} R\left(\alpha_i \mid \boldsymbol{x}\right) iargminR(αix)
其中, R ( α i ∣ x ) = ∑ j = 1 c λ ( α i ∣ ω j ) P ( ω j ∣ x ) R\left(\alpha_i \mid \boldsymbol{x}\right)=\sum_{j=1}^c \lambda\left(\alpha_i \mid \omega_j\right) P\left(\omega_j \mid \boldsymbol{x}\right) R(αix)=j=1cλ(αiωj)P(ωjx).
最小错误率决策: 此时风险为 0-1 loss, 即 λ ( α i ∣ ω j ) = { 0 , i = j 1 , i ≠ j \lambda\left(\alpha_i \mid \omega_j\right)=\left\{\begin{array}{l}0, i=j \\ 1, i \neq j\end{array}\right. λ(αiωj)={0,i=j1,i=j
R ( α i ∣ x ) = ∑ j = 1 c λ ( α i ∣ ω j ) P ( ω j ∣ x ) = ∑ j ≠ i P ( ω j ∣ x ) = 1 − P ( ω i ∣ x ) R\left(\alpha_i \mid \boldsymbol{x}\right)=\sum_{j=1}^c \lambda\left(\alpha_i \mid \omega_j\right) P\left(\omega_j \mid \boldsymbol{x}\right)=\sum_{j\ne i}P\left(\omega_j \mid \boldsymbol{x}\right)=1-P\left(\omega_i \mid x\right) R(αix)=j=1cλ(αiωj)P(ωjx)=j=iP(ωjx)=1P(ωix)
决策为 arg ⁡ max ⁡ i P ( ω i ∣ x ) \underset{i}{\arg \max } P\left(\omega_i \mid x\right) iargmaxP(ωix).

  1. 引入拒识 (表示为第 c + 1 c+1 c+1 类), 假设决策损失为
    λ ( α i ∣ ω j ) = { 0 , i = j i , j = 1 , … , c λ r , i = c + 1 λ s ,  otherwise  \lambda\left(\alpha_i \mid \omega_j\right)= \begin{cases}0, & i=j \quad i, j=1, \ldots, c \\ \lambda_r, & i=c+1 \\ \lambda_s, & \text { otherwise }\end{cases} λ(αiωj)= 0,λr,λs,i=ji,j=1,,ci=c+1 otherwise 
    请写出最小风险决策的决策规则 (包括分类规则和拒识规则)

【解】注意这边按照定义, c + 1 c+1 c+1类判别为 i i i 类的风险也是 λ s \lambda_s λs(注意理解这个拒识的定义,很绕,我用排除法,如果不属于第一种情况,又不属于第二种情况,那就是第三种情况)
R ( α i ∣ x ) = ∑ j = 1 c + 1 λ ( α i ∣ ω j ) P ( ω j ∣ x ) = λ s [ 1 − P ( ω i ∣ x ) ] , i = 1 , ⋯   , c R\left(\alpha_i \mid \boldsymbol{x}\right)=\sum_{j=1}^{c+1} \lambda\left(\alpha_i \mid \omega_j\right) P\left(\omega_j \mid \boldsymbol{x}\right)=\lambda_s\left[1-P\left(\omega_i \mid \boldsymbol{x}\right)\right], i=1, \cdots, c R(αix)=j=1c+1λ(αiωj)P(ωjx)=λs[1P(ωix)],i=1,,c
注意这边按照定义, c + 1 c+1 c+1类判别为 c + 1 c+1 c+1类的风险也是 λ r \lambda_r λr
R ( α c + 1 ∣ x ) = ∑ j = 1 c + 1 λ ( α c + 1 ∣ ω j ) P ( ω j ∣ x ) = λ r R\left(\alpha_{c+1} \mid \boldsymbol{x}\right)=\sum_{j=1}^{c+1} \lambda\left(\alpha_{c+1}\mid \omega_j\right) P\left(\omega_j \mid \boldsymbol{x}\right)=\lambda_r R(αc+1x)=j=1c+1λ(αc+1ωj)P(ωjx)=λr

R i ( x ) R_i(x) Ri(x) 的定义可计算得:
R i ( x ) = { λ s [ 1 − P ( ω i ∣ x ) ] , i = 1 , ⋯   , c λ r ,  reject  R_i(x)=\left\{\begin{array}{c} \lambda_s\left[1-P\left(\omega_i \mid \boldsymbol{x}\right)\right], i=1, \cdots, c \\ \lambda_r, \text { reject } \end{array}\right. Ri(x)={λs[1P(ωix)],i=1,,cλr, reject 
因此, 带拒识的最小风险决策为:
arg ⁡ min ⁡ i R i ( x ) = { arg ⁡ max ⁡ i P ( ω i ∣ x ) ,  if  max ⁡ P ( ω i ∣ x ) > 1 − λ r / λ s  reject, otherwise  \underset{i}{\arg \min } R_i(x)=\left\{\begin{array}{c} \underset{i}{\arg \max } P\left(\omega_i \mid \boldsymbol{x}\right), \text { if } \max P\left(\omega_i \mid \boldsymbol{x}\right)>1-\lambda_r / \lambda_s \\ \text { reject, otherwise } \end{array}\right. iargminRi(x)={iargmaxP(ωix), if maxP(ωix)>1λr/λs reject, otherwise 

【题目三】考虑三维正态分布 p ( x ∣ ω ) ∼ N ( μ , Σ ) p(\boldsymbol{x} \mid \omega) \sim N(\boldsymbol{\mu}, \Sigma) p(xω)N(μ,Σ), 其中
μ = ( 1 2 2 ) , Σ = ( 1 0 0 0 5 2 0 2 5 ) \boldsymbol{\mu}=\left(\begin{array}{l} 1 \\ 2 \\ 2 \end{array}\right), \Sigma=\left(\begin{array}{lll} 1 & 0 & 0 \\ 0 & 5 & 2 \\ 0 & 2 & 5 \end{array}\right) μ= 122 ,Σ= 100052025

  1. 构造白化变换 A ω = Φ Λ − 1 / 2 \mathrm{A}_\omega=\Phi \Lambda^{-1 / 2} Aω=ΦΛ1/2, 计算分别表示本征向量和本征值的矩阵 Φ \Phi Φ Λ \Lambda Λ; 接下来, 将此分布转换为以原点为中心、协方差矩阵为单位阵的分布, 即 p ( x ∣ ω ) ∼ N ( 0 , I ) p(\boldsymbol{x} \mid \omega) \sim N(\mathbf{0}, \mathrm{I}) p(xω)N(0,I)

【解】计算可知协方差矩阵 Σ \Sigma Σ 的本征值为: λ 1 = 1 , λ 2 = 3 , λ 3 = 7 \lambda_1=1, \lambda_2=3, \lambda_3=7 λ1=1,λ2=3,λ3=7, 其对应的本征向量分别为: v 1 = ( 0 , 1 , − 1 ) T / 2 , v 2 = ( 0 , 1 , 1 ) T / 2 , v 3 = v_1=(0,1,-1)^T / \sqrt{2}, v_2=(0,1,1)^T / \sqrt{2}, v_3= v1=(0,1,1)T/2 ,v2=(0,1,1)T/2 ,v3= ( 1 , 0 , 0 ) T , Φ (1,0,0)^T, \Phi (1,0,0)T,Φ Λ \Lambda Λ A ω A_\omega Aω 为:
Φ = ( 1 0 0 0 1 / 2 1 / 2 0 − 1 / 2 1 / 2 ) , Λ = diag ⁡ ( 1 , 3 , 7 ) A ω = Φ Λ − 1 / 2 = ( 1 0 0 0 1 / 6 1 / 14 0 − 1 / 6 1 / 14 ) \begin{gathered} \Phi=\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 / \sqrt{2} & 1 / \sqrt{2} \\ 0 & -1 / \sqrt{2} & 1 / \sqrt{2} \end{array}\right), \quad \Lambda=\operatorname{diag}(1,3,7) \\ \mathrm{A}_\omega=\Phi \Lambda^{-1 / 2}=\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 / \sqrt{6} & 1 / \sqrt{14} \\ 0 & -1 / \sqrt{6} & 1 / \sqrt{14} \end{array}\right) \end{gathered} Φ= 10001/2 1/2 01/2 1/2 ,Λ=diag(1,3,7)Aω=ΦΛ1/2= 10001/6 1/6 01/14 1/14
【国科大模式识别】第一次作业_第1张图片

通过变换 y = A ω T ( x − μ ) \boldsymbol{y}=\mathrm{A}_\omega{ }^T(\boldsymbol{x}-\boldsymbol{\mu}) y=AωT(xμ) 可将原分布变换到 N ( 0 , I ) N(\mathbf{0}, \mathrm{I}) N(0,I) (单纯的白化变换只能把协方差矩阵变为单位矩阵,这边要求均值为 0 0 0 ,所以还得平移一下)

  1. 将 (1) 中的白化变换应用于点 x 0 = ( 0.5 , 0 , 1 ) t \boldsymbol{x}_0=(0.5,0,1)^t x0=(0.5,0,1)t, 求其经过白化变换后的点 x ω x_\omega xω

【解】 x ω = A ω T ( x − μ ) = ( − 0.5 , − 1 / 6 , − 3 / 14 ) T \boldsymbol{x}_\omega=\mathrm{A}_\omega^T(\boldsymbol{x}-\boldsymbol{\mu})=(-0.5,-1 / \sqrt{6},-3 / \sqrt{14})^T xω=AωT(xμ)=(0.5,1/6 ,3/14 )T

  1. 通过详细计算, 证明原分布中从 x 0 \boldsymbol{x}_0 x0 到均值 μ \boldsymbol{\mu} μ 的 Mahalanobis 距离与变换后的分布中从 x ω \boldsymbol{x}_\omega xω 0 \mathbf{0} 0 的 Mahalanobis 距离相等。

【解】 x 0 x_0 x0 μ \mu μ 的马氏距离为: 89 84 , x ω \sqrt{\frac{89}{84}}, x_\omega 8489 ,xω 到 0 的马氏距离为: 89 84 \sqrt{\frac{89}{84}} 8489 , 两者相等

  1. 概率密度在一个一般的线性变换下是否保持不变? 换句话说, 对于某线性变换 T T T, 是否有 p ( x 0 ∣ N ( μ , Σ ) ) = p ( T t x 0 ∣ N ( T t μ , T t Σ T ) ) p\left(\boldsymbol{x}_0 \mid N(\boldsymbol{\mu}, \Sigma)\right)=p\left(T^t \boldsymbol{x}_0 \mid N\left(T^t \boldsymbol{\mu}, T^t \Sigma T\right)\right) p(x0N(μ,Σ))=p(Ttx0N(Ttμ,TtΣT)) ? 解释原因

【解】
p ( T t x 0 ∣ N ( T t μ , T t Σ T ) ) = 1 ( 2 π ) d / 2 ∣ T t Σ T ∣ 1 / 2 exp ⁡ ( − 1 2 ( T t x − T t μ ) t ( T t Σ T ) − 1 ( T t x − T t μ ) ) = 1 ( 2 π ) d / 2 ∣ T t Σ T ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) t T T − 1 Σ − 1 T − t T t ( x − μ ) ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) t Σ − 1 ( x − μ ) ) \begin{aligned} p\left(T^t \boldsymbol{x}_0 \mid N\left(T^t \boldsymbol{\mu}, T^t \Sigma T\right)\right) & =\frac{1}{(2 \pi)^{d / 2}\left|T^t \Sigma T\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(T^t x-T^t \mu\right)^t\left(T^t \Sigma T\right)^{-1}\left(T^t x-T^t \mu\right)\right) \\ & =\frac{1}{(2 \pi)^{d / 2}\left|T^t \Sigma T\right|^{1 / 2}} \exp \left(-\frac{1}{2}(x-\mu)^t T T^{-1} \Sigma^{-1} T^{-t} T^t(x-\mu)\right) \\ & =\frac{1}{(2 \pi)^{d / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}(x-\mu)^t \Sigma^{-1}(x-\mu)\right) \end{aligned} p(Ttx0N(Ttμ,TtΣT))=(2π)d/2TtΣT1/21exp(21(TtxTtμ)t(TtΣT)1(TtxTtμ))=(2π)d/2TtΣT1/21exp(21(xμ)tTT1Σ1TtTt(xμ))=(2π)d/2∣Σ1/21exp(21(xμ)tΣ1(xμ))

【题目四】对一个 c c c 类分类问题, 特征向量 x ∈ R d \boldsymbol{x} \in \mathcal{R}^d xRd, 假设各类先验概率相等, 每一类条件概率密度为高斯分布

  1. 请写出类条件概率密度函数的数学形式

【解】类条件概率密度服从 d d d 维高斯分布, 故类条件概率密度函数的数学形式为:
p ( x ∣ ω i ) = 1 ( 2 π ) d / 2 ∣ Σ i ∣ 1 / 2 exp ⁡ [ − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) ] p\left(\boldsymbol{x} \mid \omega_i\right)=\frac{1}{(2 \pi)^{d / 2}\left|\Sigma_i\right|^{1 / 2}} \exp \left[-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)^T \Sigma_i^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)\right] p(xωi)=(2π)d/2Σi1/21exp[21(xμi)TΣi1(xμi)]

  1. 请写出在下面两种情况下的最小错误率决策判别函数:(a) 类协方差矩阵不等; (b) 所有类协方差矩阵相等.

【解】判别函数计算公式为:
g i ( x ) = ln ⁡ p ( x ∣ ω i ) + ln ⁡ P ( ω i ) g_i(\boldsymbol{x})=\ln p\left(\boldsymbol{x} \mid \omega_i\right)+\ln P\left(\omega_i\right) gi(x)=lnp(xωi)+lnP(ωi)
类协方差矩阵不等时:可以进一步写为:
g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( ω i ) g_i(\boldsymbol{x})=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)^T \boldsymbol{\Sigma}_i^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)-\frac{d}{2} \ln 2 \pi-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_i\right|+\ln P\left(\omega_i\right) gi(x)=21(xμi)TΣi1(xμi)2dln2π21lnΣi+lnP(ωi)
不考虑与类别 i i i 无关的项, 且由于各类先验概率相等, 进一步有:
g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ⁡ ∣ Σ i ∣ g_i(\boldsymbol{x})=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)^T \boldsymbol{\Sigma}_i^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_i\right| gi(x)=21(xμi)TΣi1(xμi)21lnΣi
所有类协方差矩阵相等时: 可以进一步写为:
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ ∣ + ln ⁡ P ( ω i ) g_i(\boldsymbol{x})=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)^T \boldsymbol{\Sigma}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)-\frac{d}{2} \ln 2 \pi-\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\ln P\left(\omega_i\right) gi(x)=21(xμi)TΣ1(xμi)2dln2π21lnΣ+lnP(ωi)
不考虑与类别 i i i 无关的项, 且由于各类先验概率相等, 进一步有:
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) g_i(\boldsymbol{x})=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)^T \boldsymbol{\Sigma}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right) gi(x)=21(xμi)TΣ1(xμi)

  1. 在基于高斯概率密度的二次判别函数中, 当协方差矩阵为奇异时, 判别函数变得不可计算。请说出两种克服协方差奇异的方法。

【解】a. 降维, 减少特征向量的维度, 使得较低维度的协方差矩阵可逆; b. 矩阵对角化之后在特征值为 0 的位置加上小的常数; c. 求伪逆矩阵。 Σ † = ( Σ T Σ ) − 1 Σ T \boldsymbol{\Sigma}^{\dagger}=\left(\boldsymbol{\Sigma}^T \boldsymbol{\Sigma}\right)^{-1} \boldsymbol{\Sigma}^T Σ=(ΣTΣ)1ΣT

你可能感兴趣的:(算法,python)