Created: May 23, 2022 10:11 AM
一个向量的分量全是随机变量,则称之为随机向量
数学期望
矩阵的每个元素都是随机变量称为随机矩阵
协方差矩阵
表示随机变量之间的线性联系程度
对称性cov(x,y)与cov(y,x)互为转置;
计算相关矩阵(除了对角元素外小于1)
非负定矩阵;
线性性质 ;
方差相等的两个随机变量的和与差是不相关的;
行列式等于0时,以概率1存在线性关系
V ( A X + b ) = A V ( x ) A ′ C o v ( A x , B y ) = A C o v ( x , y ) B ′ V(AX+b)=AV(x)A'\\ Cov(Ax,By)=ACov(x,y)B' V(AX+b)=AV(x)A′Cov(Ax,By)=ACov(x,y)B′
相关矩阵
随机变量之间的线性依赖关系强弱
随机变量的数字特征:
期望,方差,矩,分位数,偏度,峰度,变异系数
总变异性的度量
方差可以描述单个随机变量的变异程度
总方差 t r ( Σ ) = ∑ ( σ i i ) tr(\Sigma)=\sum(σ_{ii}) tr(Σ)=∑(σii)
欧式距离
d 2 ( x , y ) = ( x − y ) ′ ( x − y ) d^2(x,y)=(x-y)'(x-y) d2(x,y)=(x−y)′(x−y)
马氏距离
d 2 ( x , y ) = ( x − y ) ′ Σ ( x − y ) d^2(x,y)=(x-y)'\Sigma(x-y) d2(x,y)=(x−y)′Σ(x−y)
∗ ∗ f ( x ) = ( 2 π ) − p / 2 ∣ Σ ∣ − 1 / 2 e − 1 2 ( x − μ ) ′ Σ − 1 ( x − μ ) ∗ ∗ **f(x)=(2\pi)^{-p/2}|\Sigma|^{-1/2}e^{-\frac{1}{2}(x-\mu)'\Sigma^{-1}(x-\mu)}** ∗∗f(x)=(2π)−p/2∣Σ∣−1/2e−21(x−μ)′Σ−1(x−μ)∗∗
几何图像:
f ( x 1 , x 2 ) = 1 2 π σ 1 σ 2 1 − ρ 2 e x p { − 1 2 ( 1 − ρ 2 ) [ ( x 1 − μ 1 σ 1 ) 2 − 2 ρ ( x 1 − μ 1 σ 1 ) ( x 2 − μ 2 σ 2 ) + ( x 2 − μ 2 σ 2 ) 2 } f(x_1,x_2)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\{-\frac{1}{2(1-\rho^2)}[(\frac{x_1-\mu_1}{\sigma_1})^2-2\rho(\frac{x_1-\mu_1}{\sigma_1})(\frac{x_2-\mu_2}{\sigma_2})+(\frac{x_2-\mu_2}{\sigma_2})^2\} f(x1,x2)=2πσ1σ21−ρ21exp{−2(1−ρ2)1[(σ1x1−μ1)2−2ρ(σ1x1−μ1)(σ2x2−μ2)+(σ2x2−μ2)2}
二元正态情形下几何等高线:
概率密度等高线是一个椭圆;
相关系数 ∣ ρ ∣ |\rho| ∣ρ∣值越大,长轴越长,短轴越短,椭圆越扁平,等高线为同中心同方向的椭圆
指数上的马氏距离:
x处的密度值完全取决于d²的大小,离越远,密度越小,越近密度越大;
多元正态分布的边缘分布为多元正态分布;但边缘分布均为正态不一定是正态分布
x ∼ N p ( μ , Σ ) , y = C x + b , C 是 r × p 常 数 矩 阵 , b 为 r 维 常 数 向 量 , 则 y ∼ N r ( C μ + b . C Σ C ′ ) x \sim N_p(\mu,\Sigma),y=Cx+b,C是r\times p常数矩阵,b为r维常数向量,则y\sim N_r(C\mu+b.C\Sigma C') x∼Np(μ,Σ),y=Cx+b,C是r×p常数矩阵,b为r维常数向量,则y∼Nr(Cμ+b.CΣC′)
各个元素之间给定元素条件下的均值与方差s
μ 1.2 = μ 1 + Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) Σ 11.2 = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 \mu_{1.2}=\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)\\\Sigma_{11.2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} μ1.2=μ1+Σ12Σ22−1(x2−μ2)Σ11.2=Σ11−Σ12Σ22−1Σ21
(注意)
Normally distributed and uncorrelated does not imply independent - Wikipedia
一致最优无偏性与充分性需要正态性假设
不一定必须要依赖于总体的正态分布
均值的置信区间与假设检验
sigma已知时,正态u检验 u = x ‾ − μ 0 σ / n u=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}} u=σ/nx−μ0
sigma未知时,t检验 t ( n − 1 ) = x ‾ − μ 0 s / n t(n-1)=\frac{\overline{x}-\mu_0}{s/{\sqrt{n}}} t(n−1)=s/nx−μ0
正态总体均值 s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2} sp2=n1+n2−2(n1−1)s12+(n2−1)s22
两个正态总体均值之差
u = x ‾ − y ‾ σ 1 2 / n 1 + σ 2 2 / n 2 t ( n 1 + n 2 − 2 ) = x ‾ − y ‾ s p 1 / n 1 + 1 / n 2 u=\frac{\overline{x}-\overline{y}}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\\ t(n_1+n_2-2)=\frac{\overline{x}-\overline{y}}{s_p\sqrt{1/n_1+1/n_2}} u=σ12/n1+σ22/n2x−yt(n1+n2−2)=sp1/n1+1/n2x−y
假设检验与置信区间
H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 H_0: \mu=\mu_0,H_1:\mu\neq\mu_0 H0:μ=μ0,H1:μ=μ0
多个总体均值的方差分析
S S T = S S E + S S T R F = S S T R / ( k − 1 ) S S E / ( n − k ) ∼ F ( k − 1 , n − k ) SST=SSE+SSTR\\F=\frac{SSTR/(k-1)}{SSE/(n-k)}\sim F(k-1,n-k) SST=SSE+SSTRF=SSE/(n−k)SSTR/(k−1)∼F(k−1,n−k)
均值向量的检验
x 1 , . . . x p 来 自 多 元 正 态 总 体 N p ( μ , Σ ) 的 一 个 样 本 , 检 验 H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 x_1,...x_p来自多元正态总体N_p(\mu,\Sigma)的一个样本,检验H_0: \mu=\mu_0,H_1:\mu\neq\mu_0 x1,...xp来自多元正态总体Np(μ,Σ)的一个样本,检验H0:μ=μ0,H1:μ=μ0
∑已知时
∑未知时
T 0 2 = n ( x ‾ − μ 0 ) ′ S − 1 ( x ‾ − μ 0 ) T_0^2=n(\overline{x}-\mu_0)'S^{-1}(\overline{x}-\mu_0) T02=n(x−μ0)′S−1(x−μ0):霍特林T²统计量
霍特林T²检验
n − p p ( n − 1 ) T 2 ∼ F ( p , n − p ) n − p p ( n − 1 ) T 2 ≥ F α ( p , n − p ) 拒 绝 H 0 \frac{n-p}{p(n-1)}T^2\sim F(p,n-p)\\\frac{n-p}{p(n-1)}T^2\geq F_{\alpha}(p,n-p)拒绝H_0 p(n−1)n−pT2∼F(p,n−p)p(n−1)n−pT2≥Fα(p,n−p)拒绝H0
联合置信区间
x 1 . . . x n ∼ N p ( μ , Σ ) , y i = a ′ x i 来 自 N ( a ′ μ , a ′ Σ a ) 样 本 x_1...x_n\sim N_p(\mu,\Sigma),y_i=a'x_i来自N(a'\mu,a'\Sigma a)样本 x1...xn∼Np(μ,Σ),yi=a′xi来自N(a′μ,a′Σa)样本
a ′ x ‾ − t α / k ( n − 1 ) a ′ S a / n ≤ a ′ μ ≤ a ′ x ‾ + t α / k ( n − 1 ) a ′ S a / n a'\overline{x}-t_{\alpha/k}(n-1)\sqrt{a'Sa}/\sqrt{n}\leq a'\mu\leq a'\overline{x}+t_{\alpha/k}(n-1)\sqrt{a'Sa}/\sqrt{n} a′x−tα/k(n−1)a′Sa/n≤a′μ≤a′x+tα/k(n−1)a′Sa/n
两个独立样本 H 0 : μ 1 = μ 2 , H 1 : μ 1 ≠ μ 2 H_0:\mu_1=\mu_2,H_1:\mu_1\neq\mu_2 H0:μ1=μ2,H1:μ1=μ2
T 2 = ( 1 n 1 + 1 n 2 ) − 1 ( x ‾ − y ‾ ) ′ S p − 1 ( x ‾ − y ‾ ) T^2=(\frac{1}{n_1}+\frac{1}{n_2})^{-1}(\overline{x}-\overline{y})'S_p^{-1}(\overline{x}-\overline{y}) T2=(n11+n21)−1(x−y)′Sp−1(x−y)
n 1 + n 2 − p − 1 p ( n 1 + n 2 − 2 ) T 2 ∼ F ( p , n 1 + n 2 − p − 1 ) \frac{n_1+n_2-p-1}{p(n_1+n_2-2)}T^2\sim F(p,n_1+n_2-p-1) p(n1+n2−2)n1+n2−p−1T2∼F(p,n1+n2−p−1)
成对实验, d i = x i − y i d_i=x_i-y_i di=xi−yi此时假设检验为: H 0 : δ = 0 , H 1 : δ ≠ 0 H_0:\delta=0,H_1:\delta\neq 0 H0:δ=0,H1:δ=0
T 2 = n d ‾ ′ S d − 1 d ‾ , d ‾ = x ‾ − y ‾ , S d = 1 n − 1 ∑ i = 1 n ( d i − d ‾ ) ( d i − d ‾ ) ′ T α 2 ( p , n − 1 ) = p ( n − 1 ) n − p F α ( p , n − p ) T^2=n\overline{d}'S_d^{-1}\overline{d},\overline{d}=\overline{x}-\overline{y},S_d=\frac{1}{n-1}\sum_{i=1}^n(d_i-\overline{d})(d_i-\overline{d})'\\T_{\alpha}^2(p,n-1)=\frac{p(n-1)}{n-p}F_{\alpha}(p,n-p) T2=nd′Sd−1d,d=x−y,Sd=n−11∑i=1n(di−d)(di−d)′Tα2(p,n−1)=n−pp(n−1)Fα(p,n−p)
( 1 , μ 1 ) , ( 2 , μ 2 ) , . . . ( p , μ p ) (1,\mu_1),(2,\mu_2),...(p,\mu_p) (1,μ1),(2,μ2),...(p,μp)称为总体的轮廓
单总体的轮廓分析
两总体的轮廓分析
(1).两轮廓外表相似,是否平行;
c = [ 1 − 1 0 . . . 0 0 1 − 1 . . . 0 . . . 1 0 0 . . . − 1 ] , H 0 : C μ 1 = μ 2 , H 1 : C μ 1 ≠ C μ 2 , T 2 ( p − 1 , n 1 + n 2 − 2 ) = n 1 n 2 n 1 + n 2 ( x ‾ − y ‾ ) ′ C ′ ( C S p C ′ ) − 1 C ( x ‾ − y ‾ ) c=\begin{bmatrix} 1&-1&0&...&0\\ 0&1&-1&...&0\\ &&...\\ 1&0&0&...&-1 \end{bmatrix},H_0:C\mu_1=\mu_2,H_1:C\mu_1\neq C\mu_2,\\T^2(p-1,n_1+n_2-2)=\frac{n_1n_2}{n_1+n_2}(\overline{x}-\overline{y})'C'(CS_pC')^{-1}C(\overline{x}-\overline{y}) c=⎣⎢⎢⎡101−1100−1...0.........00−1⎦⎥⎥⎤,H0:Cμ1=μ2,H1:Cμ1=Cμ2,T2(p−1,n1+n2−2)=n1+n2n1n2(x−y)′C′(CSpC′)−1C(x−y)
(2).假如两轮廓平行,是否重合;
C = 1 ′ , H 02 : ∑ i = 1 p μ 1 i p = ∑ i = 1 p μ 2 i p , t ( n 1 + n 2 − 2 ) = 1 ′ ( x ‾ − y ‾ ) ( 1 n 1 + 1 n 2 ) 1 ′ S p 1 C=1',H_{02}:\frac{\sum_{i=1}^p{\mu_{1i}}}{p}=\frac{\sum_{i=1}^p{\mu_{2i}}}{p},\\t(n_1+n_2-2)=\frac{1'(\overline{x}-\overline{y})}{\sqrt{(\frac{1}{n_1}+\frac{1}{n_2})1'S_p1}} C=1′,H02:p∑i=1pμ1i=p∑i=1pμ2i,t(n1+n2−2)=(n11+n21)1′Sp11′(x−y)
(3).假如两轮廓重合,是否水平.
z ‾ = n 1 n 1 + n 2 x ‾ + n 2 n 1 + n 2 y ‾ , C = [ 1 − 1 0 . . . 0 1 0 − 1 . . . 0 . . . 1 0 0 . . . − 1 ] , H 03 : C μ = 0 , H 13 : C μ ≠ 0 T 2 ( p − 1 , n 1 + n 2 − 1 ) = ( n 1 + n 2 ) z ‾ ′ C ′ ( C S C ′ ) − 1 C z ‾ \overline{z}=\frac{n_1}{n_1+n_2}\overline{x}+\frac{n_2}{n_1+n_2}\overline{y},C=\begin{bmatrix} 1&-1&0&...&0\\ 1&0&-1&...&0\\ &&...\\ 1&0&0&...&-1 \end{bmatrix},\\H_{03}:C\mu=0,H_{13}:C\mu\neq0\\T^2(p-1,n_1+n_2-1)=(n_1+n_2)\overline{z}'C'(CSC')^{-1}C\overline{z} z=n1+n2n1x+n1+n2n2y,C=⎣⎢⎢⎡111−1000−1...0.........00−1⎦⎥⎥⎤,H03:Cμ=0,H13:Cμ=0T2(p−1,n1+n2−1)=(n1+n2)z′C′(CSC′)−1Cz
∗ ∗ d 2 ( x , π 1 ) − d 2 ( x , π 2 ) ∗ ∗ **d^2(x,\pi_1)-d^2(x,\pi_2)** ∗∗d2(x,π1)−d2(x,π2)∗∗
欧式距离未能将变量之间的相关性考虑在内,结果不合理;马氏距离可以弥补不足
协方差相等时的判别 Σ 1 = Σ 2 = Σ \Sigma_1=\Sigma_2=\Sigma Σ1=Σ2=Σ
d 2 ( x , π 1 ) − d 2 ( x , π 2 ) = − 2 a ′ ( x − μ ‾ ) , a = Σ − 1 ( μ 1 − μ 2 ) , μ ‾ = 1 / 2 ( μ 1 + μ 2 ) d^2(x,\pi_1)-d^2(x,\pi_2)=-2a'(x-\overline{\mu}),a=\Sigma^{-1}(\mu_1-\mu_2),\overline{\mu}=1/2(\mu_1+\mu_2) d2(x,π1)−d2(x,π2)=−2a′(x−μ),a=Σ−1(μ1−μ2),μ=1/2(μ1+μ2)
Δ 2 = ( μ 1 − μ 2 ) ′ Σ − 1 ( μ 1 − μ 2 ) = a ′ ( μ 1 − μ 2 ) = a ′ Σ a W ( x ) ∼ N ( 1 / 2 Δ , Δ 2 ) P ( W ( x ) ≥ 0 ) = Φ ( − Δ 2 ) \Delta^2=(\mu_1-\mu_2)'\Sigma^{-1}(\mu_1-\mu_2)=a'(\mu_1-\mu_2)=a'\Sigma a\\W(x)\sim N(1/2\Delta,\Delta^2)\\P(W(x)\geq 0)=\Phi(-\frac{\Delta}{2}) Δ2=(μ1−μ2)′Σ−1(μ1−μ2)=a′(μ1−μ2)=a′ΣaW(x)∼N(1/2Δ,Δ2)P(W(x)≥0)=Φ(−2Δ)
因此两组分的越开,判别效果越佳,
协方差不相等时的判别
除非分离的很好,不然距离判别不太有效
协方差阵相等情景:
实际中用样本期望和协方差矩阵代替总体的期望和协方差矩阵
步骤上可以先进行多元方差分析,若均值有显著性差异,则可以进行多组距离的判别
最大后验概率法
P ( π i ∣ x ) = p i f i ( x ) ∑ j = 1 k p j f j ( x ) P(\pi_i|x)=\frac{p_if_i(x)}{\sum_{j=1}^kp_jf_j(x)} P(πi∣x)=∑j=1kpjfj(x)pifi(x),最大后验则是 arg max π l P ( π i ∣ x ) \argmax_{\pi_l} P(\pi_i|x) πlargmaxP(πi∣x)
k组正态情形 P ( π i ∣ x ) = e x p [ − 0.5 D 2 ( x , π i ) ∑ j = 1 k e x p [ − 0.5 D 2 ( x , π j ) ] P(\pi_i|x)=\frac{exp[-0.5D^2(x,\pi_i)}{\sum_{j=1}^k exp[-0.5D^2(x,\pi_j)]} P(πi∣x)=∑j=1kexp[−0.5D2(x,πj)]exp[−0.5D2(x,πi),不一定需要正态假定
D²广义平方距离
D 2 = d 2 ( x , π i ) + g i ( 如 果 Σ 不 全 相 等 则 为 l n ∣ Σ i ∣ , 全 相 等 为 0 ) + h i ( 如 果 p i 不 全 相 等 为 − 2 l n p , 全 相 等 为 0 ) D^2=d^2(x,\pi_i)+g_i(如果\Sigma不全相等则为ln|\Sigma_i|,全相等为0)+h_i(如果p_i不全相等为-2lnp,全相等为0) D2=d2(x,πi)+gi(如果Σ不全相等则为ln∣Σi∣,全相等为0)+hi(如果pi不全相等为−2lnp,全相等为0)
∑i全相等时,化为
max ( I i ′ x + c i + l n p i ) , I i = Σ − 1 μ , c i = 0.5 μ i ′ Σ − 1 μ i \max (I_i'x+c_i+lnp_i),Ii=\Sigma^{-1}\mu,ci=0.5\mu_i'\Sigma^{-1}\mu_i max(Ii′x+ci+lnpi),Ii=Σ−1μ,ci=0.5μi′Σ−1μi
最小期望误判代价法
最大后验概率法没有涉及误判代价,在各误判代价明显不同的场合下,判别就不适宜了
协差阵相等情形:
a ′ ( x − μ ) ≥ l n [ c ( 1 ∣ 2 ) p 2 c ( 2 ∣ 1 ) p 1 ] a'(x-\mu)\geq ln[\frac{c(1|2)p_2}{c(2|1)p_1}] a′(x−μ)≥ln[c(2∣1)p1c(1∣2)p2]判x为 π 1 \pi_1 π1, a ′ ( x − μ ) < l n [ c ( 1 ∣ 2 ) p 2 c ( 2 ∣ 1 ) p 1 ] a'(x-\mu)< ln[\frac{c(1|2)p_2}{c(2|1)p_1}] a′(x−μ)<ln[c(2∣1)p1c(1∣2)p2]判x为 π 2 \pi_2 π2
距离判别等价于正态组和协差阵相等时不考虑先验概率和误判代价的贝叶斯判别。
在两组皆为正态组且协方差相等时,距离判别规则在使两个误判概率之和达到最小意义上是最优的
协差阵不相等时
d 2 ( x , π 1 ) − d 2 ( x , π 2 ) ≤ l n [ c ( 2 ∣ 1 ) p 1 ∣ Σ 2 ∣ 1 / 2 c ( 2 ∣ 1 ) p 1 ∣ Σ 1 ∣ 1 / 2 ] d^2(x,\pi_1)-d^2(x,\pi_2)\leq ln[\frac{c(2|1)p_1|\Sigma_2|^{1/2}}{c(2|1)p_1|\Sigma_1|^{1/2}}] d2(x,π1)−d2(x,π2)≤ln[c(2∣1)p1∣Σ1∣1/2c(2∣1)p1∣Σ2∣1/2]判x为 π 1 \pi_1 π1,
d 2 ( x , π 1 ) − d 2 ( x , π 2 ) ≤ l n [ c ( 2 ∣ 1 ) p 1 ∣ Σ 2 ∣ 1 / 2 c ( 2 ∣ 1 ) p 1 ∣ Σ 1 ∣ 1 / 2 ] d^2(x,\pi_1)-d^2(x,\pi_2)\leq ln[\frac{c(2|1)p_1|\Sigma_2|^{1/2}}{c(2|1)p_1|\Sigma_1|^{1/2}}] d2(x,π1)−d2(x,π2)≤ln[c(2∣1)p1∣Σ1∣1/2c(2∣1)p1∣Σ2∣1/2]判x为 π 2 \pi_2 π2.
先验概率与误判概率相同情况下,使得两个误判概率之和(平均误判概率)达到最小意义是最优的,二次函数相比于线性判别函数判别效果更依赖于多元正态性的假定
误判代价是误判后果的数量表现
最大后延概率法没有涉及误判代价,误判代价明显不同时不适宜
引言:判别变量为定量变量(也称间隔变量)
除了分类,还可以分离,图形和代数方法描述差异性,费希尔判别用于此目的
是否中心化都本质上都相同
基本思想是投影,降维,用 x = ( x 1 , x 2 . . . x p ) ′ 的 少 数 几 个 线 性 组 合 y 1 = a 1 ′ x . . . y r = a r ′ x 代 替 p 个 变 量 达 到 降 维 目 的 x=(x_1,x_2...x_p)'的少数几个线性组合y_1=a_1'x...y_r=a_r'x代替p个变量达到降维目的 x=(x1,x2...xp)′的少数几个线性组合y1=a1′x...yr=ar′x代替p个变量达到降维目的
可用于分类也可用于分离,但在实际更多用于分离。
有各组协方差矩阵 Σ \Sigma Σ相同的假定
S S T R = a ′ H a S S E = a ′ E a SSTR=a'Ha\\ SSE=a'Ea SSTR=a′HaSSE=a′Ea
反映分离程度的量 Δ ( a ) = a ′ H a a ′ E a \Delta(a)=\frac{a'Ha}{a'Ea} Δ(a)=a′Eaa′Ha
a’Spa=1,判别函数的联合样本方差为1,y2在线性意义上不重复y1中的信息
E − 1 H E^{-1}H E−1H的全部非0特征根
费希尔第一线性判别函数 y = t 1 ′ x y=t_1'x y=t1′x
当 a i = t i 时 , Δ ( a i ) 到 达 最 大 值 λ i , 称 y i = t i ′ x 为 第 i 判 别 函 数 a_i=t_i时,\Delta(a_i)到达最大值\lambda_i,称y_i=t_i'x为第i判别函数 ai=ti时,Δ(ai)到达最大值λi,称yi=ti′x为第i判别函数
特点:
在低维空间分离的好,在高维空间也分离的好;反之未必
判别规则:(分离时不涉及判别规则,只有在分类中才涉及)
m i n ∣ y − y ‾ ∣ min|y-\overline{y}| min∣y−y∣
如果使用所有s个判别函数做判别,费希尔判别等价于距离判别,自然对各组皆为正态也等价于协方差矩阵相等且先验概率和误判代价均相等的贝叶斯判别
r
聚类分析目的是把分类对象按一定规则分成若干类,事先未给定
判别与聚类:
判别分类中,组的数目是已知;聚类是未知的
如果组不是已有的可以通过聚类探索,聚类效果可以通过费希尔判别函数散点图直觉上评估
Q型聚类分析:对样本
R型聚类分析:对变量
间隔变量:连续的变量,也叫定量变量
有序变量:等级制
名义变量:类,无数量与等级关系
有序和名义统称为定性变量,属性变量,分类变量
距离
实际上是一个不相似性的度量
三个条件:非负性,对称性,三角不等式(但实际应用中经常主观指定距离,可能并不满足这三个条件)
(都需要间隔尺度)
1.明考夫斯基距离 d ( x , y ) = [ ∑ i = 1 p ∣ x i − y i ∣ q ] 1 / q d(x,y)=[\sum_{i=1}^p|x_i-y_i|^q]^{1/q} d(x,y)=[∑i=1p∣xi−yi∣q]1/q
兰氏距离 d ( x , y ) = ∑ i = 1 p ∣ x i − y i ∣ x i + y i d(x,y)=\sum_{i=1}^p\frac{|x_i-y_i|}{x_i+y_i} d(x,y)=∑i=1pxi+yi∣xi−yi∣
与各变量的单位无关,适用于高度倾斜或含有异常值的数据
马氏距离 d ( x , y ) = ( x − y ) ′ S − 1 ( x − y ) d(x,y)=\sqrt{(x-y)'S^{-1}(x-y)} d(x,y)=(x−y)′S−1(x−y)
考虑了各变量之间的相关性,聚类过程中类一直变化使得协方差矩阵难以确定,不是理想的距离
相似系数
相似性的度量,有的时候是相似系数大小,有的时候是绝对值的大小
1.夹角余弦
2.相关系数
可以度量变量之间的相似性,样品之间的相似性
系统聚类法通过一系列相继的合并或相继的分割进行的,分为聚集(少集多)的和分割(多分少)两种,n不大的情景
系统聚类法的性质:
单调性:
最短距离法,最长距离法,类平均法,离差平方和法,可变法和可变类平均具有单调性;
重心法,中间距离法不具有单调性
最短距离法
最长距离法
类平均法
重心法
中间距离法
离差平方和法(ward方法)
系统聚类中被错误分类的样品不提供重新分类的机会,而动态聚类法允许样品从一个类到另一个类
(补)注意的点:
定义:降维技术,用较少(不相关)变量代替大量相关变量的统计降维方法
应用:1)用少数几个主成分代替原始变量进行分析,因此需要对主成分给出符合实际背景意义的解释;
2)主成分只要达到目标的中间步骤:聚类,回归,评估正态性,寻找异常值,发现多重共线性,不必解释
是否中心化本质相同,
主成分不如原变量解释清楚
∣ ∣ a 1 ∣ ∣ = 1 条 件 下 V ( y 1 ) = a 1 ′ Σ a 1 ||a_1||=1条件下V(y_1)=a_1'\Sigma a_1 ∣∣a1∣∣=1条件下V(y1)=a1′Σa1达到最大,y1称为第一主成分
y2则应该信息与y1不重叠, 使 得 C o v ( y k , y i ) = 0 , ∣ ∣ a i ∣ ∣ = 1 且 V ( y i ) = a i ′ Σ a i 达 到 最 大 使得Cov(y_k,y_i)=0,||a_i||=1且V(y_i)=a_i'\Sigma a_i达到最大 使得Cov(yk,yi)=0,∣∣ai∣∣=1且V(yi)=ai′Σai达到最大
样本主成分是使样本方差而非方差到达最大,是使样本协方差而非协方差为零
不涉及求逆,允许 n ≤ p n\leq p n≤p,但不建议
相关性较强,不适合
目测法在主成分得分图上聚类(可以的,且不一定比专业的差,但一般只限于两个主成分的聚类)
样品之间距离的计算主成分不如原始变量
费希尔判别函数比主成分更适用于对聚类结果的图像评估:两个(或三个)费希尔判别得分构成的散点图能最大限度显示类之间的差别,但主成分得分构成的图形最大限度显现的是样品之间的差异,相对不太好。虽然主成分得分构成的散点图可以基本反映聚类效果,但效果逊色与费希尔判别
但是费希尔判别函数得分图不适合聚类,它算是分类。
不同时期的不能用主成分比较,也不能说明两个时期主成分分析都能成功
定性数据问题:
有序变量一般将其转化为间隔变量数据,再进行主成分分析;
名义变量不能进行主成分分析
主成分推广与发展,目的用途与主成分类似
主成分与因子分析的区别:
x i = μ i + ∑ j a i j f j + ϵ i x_i=\mu_i+\sum_{j}a_{ij}f_j+\epsilon_i xi=μi+∑jaijfj+ϵi
数学模型
x = μ + A f + e 假 定 如 下 : E ( f ) = 0 E ( e ) = 0 V ( f ) = I V ( e ) = D = d i a g ( e 1 2 , e 2 2 . . . e n 2 ) C o v ( f , e ) = E ( f e ′ ) = 0 x=\mu+Af+e\\ 假定如下:\\ E(f)=0\\ E(e)=0\\ V(f)=I\\ V(e)=D=diag(e_1^2,e_2^2...e_n^2)\\ Cov(f,e)=E(fe')=0 x=μ+Af+e假定如下:E(f)=0E(e)=0V(f)=IV(e)=D=diag(e12,e22...en2)Cov(f,e)=E(fe′)=0
解释:f是公共因子, a i j 是 x i 在 f j 上 的 载 荷 , 反 映 了 因 子 f j 对 变 量 x i 的 重 要 性 , A = ( a i j ) 是 因 子 载 荷 矩 阵 , ϵ 是 误 差 或 特 殊 因 子 , 模 型 为 正 交 因 子 模 型 a_{ij}是x_i在f_j上的载荷,反映了因子f_j对变量x_i的重要性,A=(a_{ij})是因子载荷矩阵,\epsilon是误差或特殊因子,模型为正交因子模型 aij是xi在fj上的载荷,反映了因子fj对变量xi的重要性,A=(aij)是因子载荷矩阵,ϵ是误差或特殊因子,模型为正交因子模型
理解:
公共因子互不相关,线性关系意义上信息互不重复;
e与f1,f2,…fm都不相关
协方差或相关系数与e都无关
误差变异性难以控制,允许误差的方差不同
A的元素
C o v ( x , f ) = A , r ( x i , f j ) = C o v ( x i , f j ) = a i j Cov(x,f)=A, r(x_i,f_j)=Cov(x_i,f_j)=a_{ij} Cov(x,f)=A,r(xi,fj)=Cov(xi,fj)=aij
A的行元素平方和
σ i i = h i 2 + σ i 2 , h i 2 = ∑ a i j 2 σ_{ii}=h_i^2+σ_i^2,hi^2 =\sum a_{ij}^2 σii=hi2+σi2,hi2=∑aij2反映了公共因子对xi的影响,可以看出是公共因子f对xi的共性方差
σi^2是特殊因子ei对xi的方差贡献,也称为特殊方差
A的列元素平方和 g j 2 = ∑ i = 1 p a i j 2 g_j^2 =\sum_{i=1}^p a_{ij}^2 gj2=∑i=1paij2
gj^2反映了公共因子fj对x的影响,衡量公共因子fj重要性的一个尺度,可以视为fj对x1…xp的总方差贡献。
A的元素平方和
tr(AA’)=∑hi^2
tr(A’A)=∑gj^2
这是f对总方差的累计贡献
因子模型拟合得好,公共因子所解释方差占比较高(通常)
主成分与主因子求解过程中确定因子数m,极大似然估计必须在求解之前确定m
因子数增加时,原来因子的估计载荷并不变的解有主成分解和主因子解
列联表
对应矩阵的元素和为1
行,列轮廓
行、列独立性检验(卡方检验)
χ 2 [ ( p − 1 ) ( q − 1 ) ] = n ∑ i = 1 p ∑ j = 1 q ( p i j − p i . p . j ) 2 p i . p . j \chi^2[(p-1)(q-1)]=n\sum_{i=1}^p\sum_{j=1}^q\frac{(p_{ij}-p_{i.}p_{.j})^2}{p_{i.}p_{.j}} χ2[(p−1)(q−1)]=n∑i=1p∑j=1qpi.p.j(pij−pi.p.j)2
总惯量:行与列变量之间关联性的度量
I = χ 2 n = ∑ i = 1 p ∑ j = 1 q ( p i j − p i . p . j ) 2 p i . p . j = ∑ i p i . ( r i − c ) ′ D c − 1 ( r i − c ) = ∑ j p . j ( c j − r ) ′ D r − 1 ( c j − r ) I=\frac{\chi^2}{n}=\sum_{i=1}^p\sum_{j=1}^q\frac{(p_{ij}-p_{i.}p_{.j})^2}{p_{i.}p_{.j}}=\sum_i p_{i.} (r_i-c)'D_{c}^{-1}(r_i-c)\\=\sum_j p_{.j} (c_j-r)'D_{r}^{-1}(c_j-r) I=nχ2=∑i=1p∑j=1qpi.p.j(pij−pi.p.j)2=∑ipi.(ri−c)′Dc−1(ri−c)=∑jp.j(cj−r)′Dr−1(cj−r)
总惯量可看成是行轮廓到其中心的卡方距离的加权平均,列轮廓到其中心的卡方距离的加权平均。度量行、列轮廓之间的总变差,行与列的关联性越强,轮廓之间的差异性就越大。
各行点和列点在第i坐标轴上的坐标平方的加权平方等于i²,第i主惯量,度量在第i坐标轴上的变差,列联表数据在第i维上的信息量
各行点与各列点在每一坐标轴的中心都是0,且变差程度相同。
寻找列联表行与列之间关联的一种低维图形表示法