数据挖掘与分析课程笔记(Chapter 1)

数据挖掘与分析课程笔记

  • 参考教材:Data Mining and Analysis : MOHAMMED J.ZAKI, WAGNER MEIRA JR.

文章目录

  1. 数据挖掘与分析课程笔记(目录)
  2. 数据挖掘与分析课程笔记(Chapter 1)
  3. 数据挖掘与分析课程笔记(Chapter 2)
  4. 数据挖掘与分析课程笔记(Chapter 5)
  5. 数据挖掘与分析课程笔记(Chapter 7)
  6. 数据挖掘与分析课程笔记(Chapter 14)
  7. 数据挖掘与分析课程笔记(Chapter 15)
  8. 数据挖掘与分析课程笔记(Chapter 20)
  9. 数据挖掘与分析课程笔记(Chapter 21)

笔记目录

  • 数据挖掘与分析课程笔记
  • 文章目录
  • Chapter 1 :准备
    • 1.1 数据矩阵
    • 1.2 属性
    • 1.3 代数与几何的角度
      • 1.3.1 距离与角度
      • 1.3.2 算术平均与总方差
      • 1.3.3 正交投影
      • 1.3.4 线性相关性与维数
    • 1.4 概率观点
      • 1.4.1 二元随机变量
      • 1.4.2 多元随机变量
      • 1.4.3 随机样本与统计量


Chapter 1 :准备

1.1 数据矩阵

Def.1. 数据矩阵是指一个 ( n × d ) (n\times d) (n×d) 的矩阵
D = ( X 1 X 2 ⋯ X d x 1 x 11 x 12 ⋯ x 1 d x 2 x 21 x 22 ⋯ x 2 d ⋮ ⋮ ⋮ ⋱ ⋮ x n x n 1 x n 2 ⋯ x n d ) \mathbf{D}=\left(\begin{array}{c|cccc} & X_{1} & X_{2} & \cdots & X_{d} \\ \hline \mathbf{x}_{1} & x_{11} & x_{12} & \cdots & x_{1 d} \\ \mathbf{x}_{2} & x_{21} & x_{22} & \cdots & x_{2 d} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \mathbf{x}_{n} & x_{n 1} & x_{n 2} & \cdots & x_{n d} \end{array}\right) D= x1x2xnX1x11x21xn1X2x12x22xn2Xdx1dx2dxnd
行:实体,列:属性

Ex. 鸢尾花数据矩阵
( 萼片长 萼片宽 花瓣长 花瓣宽 类别 X 1 X 2 X 3 X 4 X 5 x 1 5.9 3.0 4.2 1.5 云芝 ) \left(\begin{array}{c|ccccc} & 萼片长 & 萼片宽 & 花瓣长 & 花瓣宽 & 类别 \\ & X_{1} & X_{2} & X_{3} & X_{4} & X_{5} \\ \hline \mathbf{x}_{1} & 5.9 & 3.0 & 4.2 & 1.5 & 云芝 \\ \end{array}\right) x1萼片长X15.9萼片宽X23.0花瓣长X34.2花瓣宽X41.5类别X5云芝

1.2 属性

Def.2.

  • 数值属性 是指取实数值(或整数值)的属性。
  • 若数值属性的取值范围是有限集或无限可数集,则称之为离散数值属性。若只有两种取值,则称为二元属性
  • 若数值属性的取值范围不是离散的则称为连续数值属性

Def.3. 类别属性 是指取值为符号的属性。

1.3 代数与几何的角度

假设 D \mathbf{D} D 中所有属性均为数值的,即
x i = ( x i 1 , x i 2 , … , x i d ) T ∈ R d , i = 1 , ⋯   , n \mathbf{x}_{i}=\left(x_{i 1}, x_{i 2}, \ldots, x_{i d}\right)^{T} \in \mathbb{R}^{d},i=1,\cdots,n xi=(xi1,xi2,,xid)TRd,i=1,,n

x j = ( x 1 j , x 2 j , … , x n j ) T ∈ R n , j = 1 , ⋯   , d \mathbf{x}_{j}=\left(x_{1 j}, x_{2j}, \ldots, x_{n j}\right)^{T} \in \mathbb{R}^{n},j=1,\cdots,d xj=(x1j,x2j,,xnj)TRn,j=1,,d
默认向量为列向量。

1.3.1 距离与角度

a , b ∈ R d \mathbf{a}, \mathbf{b} \in \mathbb{R}^{d} a,bRd

  • 点乘: a T b = ∑ i = 1 d a i b i \mathbf{a}^{T}\mathbf{b}=\sum\limits_{i=1}^{d} a_ib_i aTb=i=1daibi
  • 长度(欧氏范数): ∣ a ∣ = a T a = ∑ i = 1 d a i 2 \left | \mathbf{a} \right | =\sqrt{\mathbf{a}^{T}\mathbf{a} } =\sqrt{\sum\limits_{i=1}^{d} a_i^2} a=aTa =i=1dai2 ,单位化: a ∣ a ∣ \frac{\mathbf{a}}{|\mathbf{a}|} aa
  • 距离: δ ( a , b ) = ∣ ∣ a − b ∣ ∣ = ∑ i = 1 d ( a i − b i ) 2 \delta(\mathbf{a},\mathbf{b})=||\mathbf{a}-\mathbf{b}||=\sqrt{\sum\limits_{i=1}^{d}(a_i-b_i)^2} δ(a,b)=∣∣ab∣∣=i=1d(aibi)2
  • 角度: c o s θ = ( a ∣ a ∣ ) T ( b ∣ b ∣ ) cos \theta =(\frac{\mathbf{a}}{|\mathbf{a}|})^{T}(\frac{\mathbf{b}}{|\mathbf{b}|}) cosθ=(aa)T(bb),即单位化后作点乘
  • 正交: a \mathbf{a} a b \mathbf{b} b 正交,若 a T b = 0 \mathbf{a}^{T}\mathbf{b}=0 aTb=0

1.3.2 算术平均与总方差

Def.3.

  • 算术平均: m e a n ( D ) = μ ^ = 1 n ∑ i = 1 n x i , ∈ R d mean(\mathbf{D})=\hat{\boldsymbol{\mu}}=\frac{1}{n} \sum\limits_{i=1}^n\mathbf{x}_i,\in \mathbb{R}^{d} mean(D)=μ^=n1i=1nxi,Rd

  • 总方差: v a r ( D ) = 1 n ∑ i = 1 n δ ( x i , μ ^ ) 2 var(\mathbf{D})=\frac{1}{n} \sum\limits_{i=1}^{n} \delta\left(\mathbf{x}_{i}, \hat{\boldsymbol{\mu}}\right)^{2} var(D)=n1i=1nδ(xi,μ^)2

    自行验证: v a r ( D ) = 1 n ∑ i = 1 n ∣ ∣ x i − μ ^ ∣ ∣ 2 = 1 n ∑ i = 1 n ∣ ∣ x i ∣ ∣ 2 − ∣ ∣ μ ^ ∣ ∣ 2 var(\mathbf{D})=\frac{1}{n} \sum\limits_{i=1}^{n}||\mathbf{x}_{i}- \hat{\boldsymbol{\mu}}||^2=\frac{1}{n} \sum\limits_{i=1}^{n}||\mathbf{x}_{i}||^2-||\hat{\boldsymbol{\mu}}||^2 var(D)=n1i=1n∣∣xiμ^2=n1i=1n∣∣xi2∣∣μ^2

  • 中心数据矩阵: c e n t e r ( D ) = ( x 1 T − μ ^ T ⋮ x n T − μ ^ T ) center(\mathbf{D})=\begin{pmatrix} \mathbf{x}_{1}^T - \hat{\boldsymbol{\mu}}^T\\ \vdots \\ \mathbf{x}_{n}^T - \hat{\boldsymbol{\mu}}^T \end{pmatrix} center(D)= x1Tμ^TxnTμ^T

    显然 c e n t e r ( D ) center(\mathbf{D}) center(D) 的算术平均为 0 ∈ R d \mathbf{0}\in \mathbb{R}^{d} 0Rd

1.3.3 正交投影

Def.4. a , b ∈ R d \mathbf{a}, \mathbf{b} \in \mathbb{R}^{d} a,bRd,向量 b \mathbf{b} b 沿向量 a \mathbf{a} a 方向的正交分解是指,将 b \mathbf{b} b 写成: b = p + r \mathbf{b}= \mathbf{p}+ \mathbf{r} b=p+r。其中, p \mathbf{p} p 是指 b \mathbf{b} b a \mathbf{a} a 方向上的正交投影, r \mathbf{r} r 是指 a \mathbf{a} a b \mathbf{b} b 之间的垂直距离。

在这里插入图片描述

a ≠ 0 , b ≠ 0 \mathbf{a}\ne\mathbf{0},\mathbf{b}\ne\mathbf{0} a=0,b=0

p = c ⋅ a , ( c ≠ 0 , c ∈ R ) \mathbf{p}=c\cdot\mathbf{a},(c \ne 0,c \in \mathbb{R}) p=ca,(c=0,cR) r = b − p = b − c a \mathbf{r}=\mathbf{b}-\mathbf{p}=\mathbf{b}-c\mathbf{a} r=bp=bca

0 = p T r = ( c ⋅ a ) T ( b − c a ) = c ⋅ ( a T b − c ⋅ a T a ) 0 = \mathbf{p}^T\mathbf{r} = (c\cdot\mathbf{a})^T(\mathbf{b}-c\mathbf{a})=c\cdot(\mathbf{a}^T\mathbf{b}-c\cdot\mathbf{a}^T\mathbf{a}) 0=pTr=(ca)T(bca)=c(aTbcaTa)

c = a T b a T a , p = a T b a T a ⋅ a c= \frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}, \mathbf{p}=\frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}\cdot\mathbf{a} c=aTaaTb,p=aTaaTba

1.3.4 线性相关性与维数

皆与线性代数相同,自读。

1.4 概率观点

每一个数值属性 X X X 被视为一个随机变量,即 X : O → R X:\mathcal{O}\rightarrow \mathbb{R} X:OR

其中, O \mathcal{O} O 表示 X X X 的定义域,即所有实验可能输出的集合,即样本空间。 R \mathbb{R} R X X X 的值域,全体实数。

注:

  • 随机变量是一个函数。
  • O \mathcal{O} O 本身是数值的(即 O ⊆ R \mathcal{O}\subseteq \mathbb{R} OR,那么 X X X 是恒等函数,即 X ( v ) = v X(v)=v X(v)=v
  • X X X 的函数取值范围为有限集或无限可数集,则称之为离散随机变量,反之,为连续随机变量

Def.5. X X X 是离散的,那么 X X X 的概率质量函数(probability mass function, PMF)为:
∀ x ∈ R , f ( x ) = P ( X = x ) \forall x \in \mathbb{R},f(x)=P(X=x) xR,f(x)=P(X=x)
注: f ( x ) ≥ 0 , ∑ x f ( x ) = 1 f(x)\ge0,\sum\limits_xf(x)=1 f(x)0,xf(x)=1 f ( x ) = 0 f(x)=0 f(x)=0,如果 x ∉ x\notin x/ ( x x x 的值域)。

Def.6. X X X 是连续的,那么 X X X 的概率密度函数(probability density function, PDF)为:
P ( X ∈ [ a , b ] ) = ∫ a b f ( x ) d x P(X\in [a,b])=\int_{a}^{b} f(x)dx P(X[a,b])=abf(x)dx
f ( x ) ≥ 0 , ∫ − ∞ + ∞ f ( x ) = 1 f(x)\ge0,\int_{-\infty}^{+\infty}f(x)=1 f(x)0,+f(x)=1

Def.7. 对任意随机变量 X X X ,定义累积分布函数(cumulative distributution function, CDF)
F : R → [ 0 , 1 ] , ∀ x ∈ R , F ( x ) = P ( X ≤ x ) F:\mathbb{R}\to[0,1],\forall x\in \mathbb{R},F(x)=P(X\le x) F:R[0,1],xR,F(x)=P(Xx)
X X X 是离散的, F ( x ) = ∑ u ≤ x f ( u ) F(x)=\sum\limits_{u\le x}f(u) F(x)=uxf(u)

X X X 是连续的, F ( x ) = ∫ − ∞ x f ( u ) d u F(x)=\int_{-\infty}^xf(u)du F(x)=xf(u)du

1.4.1 二元随机变量

X = ( X 1 X 2 ) , X : O → R 2 \mathbf{X}=\left ( \begin{matrix} X_1 \\ X_2 \end{matrix} \right ), \mathbf{X}:\mathcal{O}\to\mathbb{R}^2 X=(X1X2),X:OR2 此处 X 1 X_1 X1 X 2 X_2 X2 分别是两个随机变量。

上课时略去了很多概念,补上。

Def.8. X 1 X_1 X1 X 2 X_2 X2 都是离散,那么 X \mathbf{X} X 的联合概率质量函数被定义为:
f ( x ) = f ( x 1 , x 2 ) = P ( X 1 = x 1 , X 2 = x 2 ) = P ( X = x ) f(\mathbf{x})=f(x_1,x_2)=P(X_1=x_1,X_2=x_2)=P(\mathbf{X}=\mathbf{x}) f(x)=f(x1,x2)=P(X1=x1,X2=x2)=P(X=x)
注: f ( x ) ≥ 0 , ∑ x 1 ∑ x 2 f ( x 1 , x 2 ) = 1 f(x)\ge0,\sum\limits_{x_1}\sum\limits_{x_2}f(x_1,x_2)=1 f(x)0,x1x2f(x1,x2)=1

Def.9. X 1 X_1 X1 X 2 X_2 X2 都是连续,那么 X \mathbf{X} X 的联合概率密度函数被定义为:
P ( X ∈ W ) = ∬ x ∈ W f ( x ) d x = ∬ ( x 1 , x 2 ) ∈ T W f ( x 1 , x 2 ) d x 1 d x 2 P(\mathbf{X} \in W)=\iint\limits_{\mathbf{x} \in W} f(\mathbf{x}) d \mathbf{x}=\iint\limits_{\left(x_{1}, x_{2}\right)^T_{\in} W} f\left(x_{1}, x_{2}\right) d x_{1} d x_{2} P(XW)=xWf(x)dx=(x1,x2)TWf(x1,x2)dx1dx2
其中, W ⊂ R 2 W \subset \mathbb{R}^2 WR2 f ( x ) ≥ 0 , ∬ x ∈ R 2 f ( x ) d x = 1 f(\mathbf{x})\ge0,\iint\limits_{\mathbf{x}\in\mathbb{R}^2}f(\mathbf{x})d\mathbf{x}=1 f(x)0,xR2f(x)dx=1

Def.10. X \mathbf{X} X 的联合累积分布函数 F F F
F ( x 1 , x 2 ) = P ( X 1 ≤ x 1  and  X 2 ≤ x 2 ) = P ( X ≤ x ) F(x_1,x_2)=P(X_1\le x_1 \text{ and } X_2\le x_2)=P(\mathbf{X}\le\mathbf{x}) F(x1,x2)=P(X1x1 and X2x2)=P(Xx)
Def.11. X 1 X_1 X1 X 2 X_2 X2 是独立的,如果 ∀ W 1 ⊂ R \forall W_1\subset \mathbb{R} W1R ∀ W 2 ⊂ R \forall W_2\subset \mathbb{R} W2R
P ( X 1 ∈ W 1  and  X 2 ∈ W 2 ) = P ( X 1 ∈ W 1 ) ⋅ ( X 2 ∈ W 2 ) P(X_1\in W_1 \text{ and } X_2\in W_2)=P(X_1\in W_1)\cdot(X_2\in W_2) P(X1W1 and X2W2)=P(X1W1)(X2W2)
Prop. 如果 X 1 X_1 X1 X 2 X_2 X2 是独立的,那么
F ( x 1 , x 2 ) = F 1 ( x 1 ) ⋅ F 2 ( x 2 ) f ( x 1 , x 2 ) = f 1 ( x 1 ) ⋅ f 2 ( x 2 ) F(x_1,x_2)=F_1(x_1)\cdot F_2(x_2)\\ f(x_1,x_2)=f_1(x_1)\cdot f_2(x_2) F(x1,x2)=F1(x1)F2(x2)f(x1,x2)=f1(x1)f2(x2)
其中 F i F_i Fi X i X_i Xi 的累积分布函数, f i f_i fi x i x_i xi 的 PMF 或 PDF。

1.4.2 多元随机变量

平行推广1.4.1节中的各定义即可。

1.4.3 随机样本与统计量

Def.12. 给定随机变量 X X X ,来源于 X X X 的长度为 n n n 的随机样本是指 n n n 个独立的且同分布(均与 X X X 具有同样的 PMF 或 PDF)的随机变量 S 1 , S 2 , ⋯   , S n S_1,S_2,\cdots,S_n S1,S2,,Sn

Def.13. 统计量 θ ^ \hat{\theta} θ^ 被定义为关于随机样本的函数 θ ^ : ( S 1 , S 2 , ⋯   , S n ) → R \hat{\theta}:(S_1,S_2,\cdots,S_n)\to \mathbb{R} θ^:(S1,S2,,Sn)R

θ ^ \hat{\theta} θ^ 本身也是随机变量


你可能感兴趣的:(数学,数据挖掘,人工智能)