Def.1. 数据矩阵是指一个 ( n × d ) (n\times d) (n×d) 的矩阵
D = ( X 1 X 2 ⋯ X d x 1 x 11 x 12 ⋯ x 1 d x 2 x 21 x 22 ⋯ x 2 d ⋮ ⋮ ⋮ ⋱ ⋮ x n x n 1 x n 2 ⋯ x n d ) \mathbf{D}=\left(\begin{array}{c|cccc} & X_{1} & X_{2} & \cdots & X_{d} \\ \hline \mathbf{x}_{1} & x_{11} & x_{12} & \cdots & x_{1 d} \\ \mathbf{x}_{2} & x_{21} & x_{22} & \cdots & x_{2 d} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \mathbf{x}_{n} & x_{n 1} & x_{n 2} & \cdots & x_{n d} \end{array}\right) D=⎝ ⎛x1x2⋮xnX1x11x21⋮xn1X2x12x22⋮xn2⋯⋯⋯⋱⋯Xdx1dx2d⋮xnd⎠ ⎞
行:实体,列:属性
Ex. 鸢尾花数据矩阵
( 萼片长 萼片宽 花瓣长 花瓣宽 类别 X 1 X 2 X 3 X 4 X 5 x 1 5.9 3.0 4.2 1.5 云芝 ) \left(\begin{array}{c|ccccc} & 萼片长 & 萼片宽 & 花瓣长 & 花瓣宽 & 类别 \\ & X_{1} & X_{2} & X_{3} & X_{4} & X_{5} \\ \hline \mathbf{x}_{1} & 5.9 & 3.0 & 4.2 & 1.5 & 云芝 \\ \end{array}\right) ⎝ ⎛x1萼片长X15.9萼片宽X23.0花瓣长X34.2花瓣宽X41.5类别X5云芝⎠ ⎞
Def.2.
Def.3. 类别属性 是指取值为符号的属性。
假设 D \mathbf{D} D 中所有属性均为数值的,即
x i = ( x i 1 , x i 2 , … , x i d ) T ∈ R d , i = 1 , ⋯ , n \mathbf{x}_{i}=\left(x_{i 1}, x_{i 2}, \ldots, x_{i d}\right)^{T} \in \mathbb{R}^{d},i=1,\cdots,n xi=(xi1,xi2,…,xid)T∈Rd,i=1,⋯,n
或
x j = ( x 1 j , x 2 j , … , x n j ) T ∈ R n , j = 1 , ⋯ , d \mathbf{x}_{j}=\left(x_{1 j}, x_{2j}, \ldots, x_{n j}\right)^{T} \in \mathbb{R}^{n},j=1,\cdots,d xj=(x1j,x2j,…,xnj)T∈Rn,j=1,⋯,d
☆ 默认向量为列向量。
设 a , b ∈ R d \mathbf{a}, \mathbf{b} \in \mathbb{R}^{d} a,b∈Rd ,
Def.3.
算术平均: m e a n ( D ) = μ ^ = 1 n ∑ i = 1 n x i , ∈ R d mean(\mathbf{D})=\hat{\boldsymbol{\mu}}=\frac{1}{n} \sum\limits_{i=1}^n\mathbf{x}_i,\in \mathbb{R}^{d} mean(D)=μ^=n1i=1∑nxi,∈Rd
总方差: v a r ( D ) = 1 n ∑ i = 1 n δ ( x i , μ ^ ) 2 var(\mathbf{D})=\frac{1}{n} \sum\limits_{i=1}^{n} \delta\left(\mathbf{x}_{i}, \hat{\boldsymbol{\mu}}\right)^{2} var(D)=n1i=1∑nδ(xi,μ^)2
自行验证: v a r ( D ) = 1 n ∑ i = 1 n ∣ ∣ x i − μ ^ ∣ ∣ 2 = 1 n ∑ i = 1 n ∣ ∣ x i ∣ ∣ 2 − ∣ ∣ μ ^ ∣ ∣ 2 var(\mathbf{D})=\frac{1}{n} \sum\limits_{i=1}^{n}||\mathbf{x}_{i}- \hat{\boldsymbol{\mu}}||^2=\frac{1}{n} \sum\limits_{i=1}^{n}||\mathbf{x}_{i}||^2-||\hat{\boldsymbol{\mu}}||^2 var(D)=n1i=1∑n∣∣xi−μ^∣∣2=n1i=1∑n∣∣xi∣∣2−∣∣μ^∣∣2
中心数据矩阵: c e n t e r ( D ) = ( x 1 T − μ ^ T ⋮ x n T − μ ^ T ) center(\mathbf{D})=\begin{pmatrix} \mathbf{x}_{1}^T - \hat{\boldsymbol{\mu}}^T\\ \vdots \\ \mathbf{x}_{n}^T - \hat{\boldsymbol{\mu}}^T \end{pmatrix} center(D)=⎝ ⎛x1T−μ^T⋮xnT−μ^T⎠ ⎞
显然 c e n t e r ( D ) center(\mathbf{D}) center(D) 的算术平均为 0 ∈ R d \mathbf{0}\in \mathbb{R}^{d} 0∈Rd
Def.4. a , b ∈ R d \mathbf{a}, \mathbf{b} \in \mathbb{R}^{d} a,b∈Rd,向量 b \mathbf{b} b 沿向量 a \mathbf{a} a 方向的正交分解是指,将 b \mathbf{b} b 写成: b = p + r \mathbf{b}= \mathbf{p}+ \mathbf{r} b=p+r。其中, p \mathbf{p} p 是指 b \mathbf{b} b 在 a \mathbf{a} a 方向上的正交投影, r \mathbf{r} r 是指 a \mathbf{a} a 与 b \mathbf{b} b 之间的垂直距离。
a ≠ 0 , b ≠ 0 \mathbf{a}\ne\mathbf{0},\mathbf{b}\ne\mathbf{0} a=0,b=0
设 p = c ⋅ a , ( c ≠ 0 , c ∈ R ) \mathbf{p}=c\cdot\mathbf{a},(c \ne 0,c \in \mathbb{R}) p=c⋅a,(c=0,c∈R) 则 r = b − p = b − c a \mathbf{r}=\mathbf{b}-\mathbf{p}=\mathbf{b}-c\mathbf{a} r=b−p=b−ca
0 = p T r = ( c ⋅ a ) T ( b − c a ) = c ⋅ ( a T b − c ⋅ a T a ) 0 = \mathbf{p}^T\mathbf{r} = (c\cdot\mathbf{a})^T(\mathbf{b}-c\mathbf{a})=c\cdot(\mathbf{a}^T\mathbf{b}-c\cdot\mathbf{a}^T\mathbf{a}) 0=pTr=(c⋅a)T(b−ca)=c⋅(aTb−c⋅aTa)
c = a T b a T a , p = a T b a T a ⋅ a c= \frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}, \mathbf{p}=\frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}\cdot\mathbf{a} c=aTaaTb,p=aTaaTb⋅a
皆与线性代数相同,自读。
每一个数值属性 X X X 被视为一个随机变量,即 X : O → R X:\mathcal{O}\rightarrow \mathbb{R} X:O→R,
其中, O \mathcal{O} O 表示 X X X 的定义域,即所有实验可能输出的集合,即样本空间。 R \mathbb{R} R : X X X 的值域,全体实数。
☆ 注:
Def.5. 若 X X X 是离散的,那么 X X X 的概率质量函数(probability mass function, PMF)为:
∀ x ∈ R , f ( x ) = P ( X = x ) \forall x \in \mathbb{R},f(x)=P(X=x) ∀x∈R,f(x)=P(X=x)
注: f ( x ) ≥ 0 , ∑ x f ( x ) = 1 f(x)\ge0,\sum\limits_xf(x)=1 f(x)≥0,x∑f(x)=1; f ( x ) = 0 f(x)=0 f(x)=0,如果 x ∉ x\notin x∈/ ( x x x 的值域)。
Def.6. 若 X X X 是连续的,那么 X X X 的概率密度函数(probability density function, PDF)为:
P ( X ∈ [ a , b ] ) = ∫ a b f ( x ) d x P(X\in [a,b])=\int_{a}^{b} f(x)dx P(X∈[a,b])=∫abf(x)dx
注: f ( x ) ≥ 0 , ∫ − ∞ + ∞ f ( x ) = 1 f(x)\ge0,\int_{-\infty}^{+\infty}f(x)=1 f(x)≥0,∫−∞+∞f(x)=1
Def.7. 对任意随机变量 X X X ,定义累积分布函数(cumulative distributution function, CDF)
F : R → [ 0 , 1 ] , ∀ x ∈ R , F ( x ) = P ( X ≤ x ) F:\mathbb{R}\to[0,1],\forall x\in \mathbb{R},F(x)=P(X\le x) F:R→[0,1],∀x∈R,F(x)=P(X≤x)
若 X X X 是离散的, F ( x ) = ∑ u ≤ x f ( u ) F(x)=\sum\limits_{u\le x}f(u) F(x)=u≤x∑f(u)
若 X X X 是连续的, F ( x ) = ∫ − ∞ x f ( u ) d u F(x)=\int_{-\infty}^xf(u)du F(x)=∫−∞xf(u)du
X = ( X 1 X 2 ) , X : O → R 2 \mathbf{X}=\left ( \begin{matrix} X_1 \\ X_2 \end{matrix} \right ), \mathbf{X}:\mathcal{O}\to\mathbb{R}^2 X=(X1X2),X:O→R2 此处 X 1 X_1 X1, X 2 X_2 X2 分别是两个随机变量。
上课时略去了很多概念,补上。
Def.8. 若 X 1 X_1 X1 和 X 2 X_2 X2 都是离散,那么 X \mathbf{X} X 的联合概率质量函数被定义为:
f ( x ) = f ( x 1 , x 2 ) = P ( X 1 = x 1 , X 2 = x 2 ) = P ( X = x ) f(\mathbf{x})=f(x_1,x_2)=P(X_1=x_1,X_2=x_2)=P(\mathbf{X}=\mathbf{x}) f(x)=f(x1,x2)=P(X1=x1,X2=x2)=P(X=x)
注: f ( x ) ≥ 0 , ∑ x 1 ∑ x 2 f ( x 1 , x 2 ) = 1 f(x)\ge0,\sum\limits_{x_1}\sum\limits_{x_2}f(x_1,x_2)=1 f(x)≥0,x1∑x2∑f(x1,x2)=1
Def.9. 若 X 1 X_1 X1 和 X 2 X_2 X2 都是连续,那么 X \mathbf{X} X 的联合概率密度函数被定义为:
P ( X ∈ W ) = ∬ x ∈ W f ( x ) d x = ∬ ( x 1 , x 2 ) ∈ T W f ( x 1 , x 2 ) d x 1 d x 2 P(\mathbf{X} \in W)=\iint\limits_{\mathbf{x} \in W} f(\mathbf{x}) d \mathbf{x}=\iint\limits_{\left(x_{1}, x_{2}\right)^T_{\in} W} f\left(x_{1}, x_{2}\right) d x_{1} d x_{2} P(X∈W)=x∈W∬f(x)dx=(x1,x2)∈TW∬f(x1,x2)dx1dx2
其中, W ⊂ R 2 W \subset \mathbb{R}^2 W⊂R2, f ( x ) ≥ 0 , ∬ x ∈ R 2 f ( x ) d x = 1 f(\mathbf{x})\ge0,\iint\limits_{\mathbf{x}\in\mathbb{R}^2}f(\mathbf{x})d\mathbf{x}=1 f(x)≥0,x∈R2∬f(x)dx=1
Def.10. X \mathbf{X} X 的联合累积分布函数 F F F
F ( x 1 , x 2 ) = P ( X 1 ≤ x 1 and X 2 ≤ x 2 ) = P ( X ≤ x ) F(x_1,x_2)=P(X_1\le x_1 \text{ and } X_2\le x_2)=P(\mathbf{X}\le\mathbf{x}) F(x1,x2)=P(X1≤x1 and X2≤x2)=P(X≤x)
Def.11. X 1 X_1 X1 和 X 2 X_2 X2 是独立的,如果 ∀ W 1 ⊂ R \forall W_1\subset \mathbb{R} ∀W1⊂R 及 ∀ W 2 ⊂ R \forall W_2\subset \mathbb{R} ∀W2⊂R
P ( X 1 ∈ W 1 and X 2 ∈ W 2 ) = P ( X 1 ∈ W 1 ) ⋅ ( X 2 ∈ W 2 ) P(X_1\in W_1 \text{ and } X_2\in W_2)=P(X_1\in W_1)\cdot(X_2\in W_2) P(X1∈W1 and X2∈W2)=P(X1∈W1)⋅(X2∈W2)
Prop. 如果 X 1 X_1 X1 和 X 2 X_2 X2 是独立的,那么
F ( x 1 , x 2 ) = F 1 ( x 1 ) ⋅ F 2 ( x 2 ) f ( x 1 , x 2 ) = f 1 ( x 1 ) ⋅ f 2 ( x 2 ) F(x_1,x_2)=F_1(x_1)\cdot F_2(x_2)\\ f(x_1,x_2)=f_1(x_1)\cdot f_2(x_2) F(x1,x2)=F1(x1)⋅F2(x2)f(x1,x2)=f1(x1)⋅f2(x2)
其中 F i F_i Fi 是 X i X_i Xi 的累积分布函数, f i f_i fi 是 x i x_i xi 的 PMF 或 PDF。
平行推广1.4.1节中的各定义即可。
Def.12. 给定随机变量 X X X ,来源于 X X X 的长度为 n n n 的随机样本是指 n n n 个独立的且同分布(均与 X X X 具有同样的 PMF 或 PDF)的随机变量 S 1 , S 2 , ⋯ , S n S_1,S_2,\cdots,S_n S1,S2,⋯,Sn。
Def.13. 统计量 θ ^ \hat{\theta} θ^ 被定义为关于随机样本的函数 θ ^ : ( S 1 , S 2 , ⋯ , S n ) → R \hat{\theta}:(S_1,S_2,\cdots,S_n)\to \mathbb{R} θ^:(S1,S2,⋯,Sn)→R
注: θ ^ \hat{\theta} θ^ 本身也是随机变量