本文根据【周志华《机器学习》】(西瓜书)一书整理。
错误率:分类错误的样本数占样本总数的比例
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right) E(f;D)=m1i=1∑mI(f(xi)=yi)
精度:分类正确的样本数占样本总数的比例
acc ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) \operatorname{acc}(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(x_{i}\right)=y_{i}\right)=1-E(f ; D) acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D)
混淆矩阵:
查准率:预测结果的正例中,真正例占的比例
P = T P T P + F P P=\frac{T P}{T P+F P} P=TP+FPTP
查全率(召回率):真实情况的正例,被模型预测正确的比例
R = T P T P + F N R=\frac{T P}{T P+F N} R=TP+FNTP
F1:是模型查准率和查全率的调和平均,兼顾分类模型查准率和查全率的衡量指标。
F 1 = 2 × P × R P + R = 2 × T P 样例总数 + T P − T N F 1=\frac{2 \times P \times R}{P+R}=\frac{2 \times T P}{\text { 样例总数 }+T P-T N} F1=P+R2×P×R= 样例总数 +TP−TN2×TP
P ( c ∣ x ) = P ( x , c ) P ( x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c \mid \boldsymbol{x})=\frac{P(\boldsymbol{x}, c)}{P(\boldsymbol{x})}=\frac{P(c) P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})} P(c∣x)=P(x)P(x,c)=P(x)P(c)P(x∣c)
P ( c ) P(c) P(c)是先验概率, P ( x ∣ c ) P(\boldsymbol{x} \mid c) P(x∣c)是似然函数, P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(c∣x)是后验概率。
逻辑回归是一种分类模型,并常用于二分类。
线性回归模型简写为
y = w T x + b y=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b y=wTx+b
逻辑回归的模型为
y ^ = σ ( w T x + b ) \hat{y}=\sigma\left(w^{T} x+b\right) y^=σ(wTx+b)
利用Sigmoid函数 y = 1 1 + e − z y=\frac{1}{1+e^{-z}} y=1+e−z1,将线性回归转化为分类模型,得到逻辑回归模型
y = 1 1 + e − ( w T x + b ) y=\frac{1}{1+e^{-\left(w^{\mathrm{T}} x+b\right)}} y=1+e−(wTx+b)1
可变化为
ln y 1 − y = w T x + b \ln \frac{y}{1-y}=w^{\mathrm{T}} x+b ln1−yy=wTx+b
若将视为样本为正例的可能性,则是其反例的可能性,两者比值成为几率,是其对数几率。因此 逻辑回归实际是用线性回归模型的预测结果去逼近真实标记的对数几率 。
令估计参数 w w w和 b b b为 θ θ θ,构造预测函数为
h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_{\theta}(x)=g\left(\theta^{T} x\right)=\frac{1}{1+e^{-\theta^{T} x}} hθ(x)=g(θTx)=1+e−θTx1
函数 h θ ( x ) h_{\theta}(x) hθ(x)的值表示分类结果取1的概率,因此对于输入 x x x分类结果为类别1和类别0的概率分别为
P ( y = 1 ∣ x , θ ) = h θ ( x ) P ( y = 0 ∣ x , θ ) = 1 − h θ ( x ) \begin{aligned} &P(y=1 \mid x, \theta)=h_{\theta}(x) \\ &P(y=0 \mid x, \theta)=1-h_{\theta}(x) \end{aligned} P(y=1∣x,θ)=hθ(x)P(y=0∣x,θ)=1−hθ(x)
综合上式可得
P ( y ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y P(y \mid x ; \theta)=\left(h_{\theta}(x)\right)^{y}\left(1-h_{\theta}(x)\right)^{1-y} P(y∣x;θ)=(hθ(x))y(1−hθ(x))1−y
取似然函数
L ( θ ) = ∏ i = 1 m P ( y i ∣ x i ; θ ) = ∏ i = 1 m ( h θ ( x i ) ) y i ( 1 − h θ ( x i ) ) 1 − y i \begin{aligned} L(\theta) &=\prod_{i=1}^{m} P\left(y^{\mathrm{i}} \mid x^{\mathrm{i}} ; \theta\right) \\ &=\prod_{i=1}^{m}\left(h_{\theta}\left(x^{\mathrm{i}}\right)\right)^{y^{\mathrm{i}}}\left(1-h_{\theta}\left(x^{\mathrm{i}}\right)\right)^{1-y^{\mathrm{i}}} \end{aligned} L(θ)=i=1∏mP(yi∣xi;θ)=i=1∏m(hθ(xi))yi(1−hθ(xi))1−yi
则对数似然为
l ( θ ) = log L ( θ ) = ∑ i = 1 m ( y i log h θ ( x i ) + ( 1 − y i ) log ( 1 − h θ ( x i ) ) ) \begin{aligned} l(\theta) &=\log L(\theta) \\ &=\sum_{i=1}^{m}\left(y^{i} \log h_{\theta}\left(x^{i}\right)+\left(1-y^{i}\right) \log \left(1-h_{\theta}\left(x^{i}\right)\right)\right) \end{aligned} l(θ)=logL(θ)=i=1∑m(yiloghθ(xi)+(1−yi)log(1−hθ(xi)))
得到损失函数为
Cost ( h θ ( x ) , y ) = { − log ( h θ ( x ) ) y = 1 − log ( 1 − h θ ( x ) ) y = 0 J θ = 1 m ∑ i = 1 m Cost ( h θ ( x i ) , y i ) = − 1 m [ ∑ i = 1 m y i log h θ ( x i ) + ( 1 − y i ) log ( 1 − h θ ( x i ) ) ] \begin{gathered} \operatorname{Cost}\left(h_{\theta}(x), y\right)=\left\{\begin{array}{l} -\log \left(h_{\theta}(x)\right) \quad y=1 \\ -\log \left(1-h_{\theta}(x)\right) y=0 \end{array}\right. \\ J \theta=\frac{1}{m} \sum_{i=1}^{m} \operatorname{Cost}\left(h_{\theta}\left(x^{i}\right), y^{i}\right) \\ =-\frac{1}{m}\left[\sum_{i=1}^{m} y^{i} \log h_{\theta}\left(x^{i}\right)+\left(1-y^{i}\right) \log \left(1-h_{\theta}\left(x^{i}\right)\right)\right] \end{gathered} Cost(hθ(x),y)={ −log(hθ(x))y=1−log(1−hθ(x))y=0Jθ=m1i=1∑mCost(hθ(xi),yi)=−m1[i=1∑myiloghθ(xi)+(1−yi)log(1−hθ(xi))]
决策树从给定训练数据集训练一个树型结构模型用以对新样本进行分类,属于监督学习。
一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。
从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习基本算法如下图所示。
决策树的生成是一个递归过程。在决策树基本算法中,有三种情形会导致递归返回:
信息熵(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合 D D D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 , … , ∣ Y ∣ ) \mathrm p_{k}(k=1,2, \ldots,|\mathcal{Y}|) pk(k=1,2,…,∣Y∣),则的信息熵定义为
Ent ( D ) = − ∑ k = 1 ∣ Y ∣ p k log 2 p k \operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k} Ent(D)=−k=1∑∣Y∣pklog2pk
∣ Y ∣ |\mathcal{Y}| ∣Y∣为分类类别数目,Ent ( D ) (D) (D)的值越小,则 D D D的纯度越高。Ent ( D ) (D) (D)的最小值为0,最大值为 log 2 ∣ Y ∣ \log _{2}|\mathcal{Y}| log2∣Y∣。
信息的基本作用就是消除人们对事物的不确定性。信息熵为事件不确定性的量度。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。事件的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
信息增益(information gain)是指一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。
信息熵是代表随机变量的复杂度(事件的不确定度),条件熵代表在某一个条件下,随机变量的复杂度(事件的不确定度)。
信息增益 = 信息商 − 条件嫡 \text { 信息增益 }=\text { 信息商 }-\text { 条件嫡 } 信息增益 = 信息商 − 条件嫡
g ( X , Y ) = H ( Y ) − H ( Y ∣ X ) g(X, Y)=H(Y)-H(Y \mid X) g(X,Y)=H(Y)−H(Y∣X)
Gain ( D , a ) = Ent ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ Ent ( D v ) \text { Gain }(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right) Gain (D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)
V V V为属性 a a a可取值的数目。
因此,信息增益代表已知某个条件后,随机变量的复杂度(事件的不确定度)减少的程度。如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么就选取这个特征。
信息增益准则对可取值数目较多的属性有所偏好(属性本身的取值越多,信息增益越大),C4.5决策树算法不直接使用信息增益,而是使用增益率(gain ratio)来选择最优划分属性。增益率定义为
G a i n _ r a t i o ( D , a ) = Gain ( D , a ) IV ( a ) \text Gain\_ratio(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)} Gain_ratio(D,a)=IV(a)Gain(D,a)
其中
I V ( a ) = − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ log 2 ∣ D v ∣ ∣ D ∣ \mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|} IV(a)=−v=1∑V∣D∣∣Dv∣log2∣D∣∣Dv∣
∣ D v ∣ ∣ D ∣ \frac{\left|D^{v}\right|}{|D|} ∣D∣∣Dv∣表示标记为 v v v的样本数占总样本数的比例。
C4.5算法先从候选划分属性中找出信息增益高于平均水平的属性,再从中选出信息增益率(用信息增益除以该属性本身的固有值Intrinsic value)最高的属性作为划分属性。
CART决策树使用基尼指数(Gini index)来选择划分属性。基尼指数 Gini ( D ) \operatorname{Gini}(D) Gini(D)反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。基尼值定义为
Gini ( D ) = ∑ k = 1 ∣ y ∣ ∑ k ′ ≠ k p k p k ′ = 1 − ∑ k = 1 ∣ y ∣ p k 2 \operatorname{Gini}(D)=\sum_{k=1}^{|y|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}}=1-\sum_{k=1}^{|y|} p_{k}^{2} Gini(D)=k=1∑∣y∣k′=k∑pkpk′=1−k=1∑∣y∣pk2
特征属性a的基尼系数定义为
Gini index ( D , a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ Gini ( D v ) \operatorname{Gini} \operatorname{index}(D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right) Giniindex(D,a)=v=1∑V∣D∣∣Dv∣Gini(Dv)
基尼指数表征的也是事件的不确定性,因此在候选属性集合A中,选择使得划分后基尼指数最小的属性作为最优划分属性,即
a ∗ = arg min a ∈ A G i n i I n d e x ( D , a ) a_{*}=\underset{a \in A}{\arg \min } { GiniIndex }(D, a) a∗=a∈AargminGiniIndex(D,a)
分类判定准则 h : X ↦ Y h: \mathcal{X} \mapsto \mathcal{Y} h:X↦Y以最小化总体风险, h h h为分类函数。 x x x为样本 X \mathcal{X} X的已知属性或特征。
R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=\mathbb{E}_{\boldsymbol{x}}[R(h(\boldsymbol{x}) \mid \boldsymbol{x})] R(h)=Ex[R(h(x)∣x)]
贝叶斯判定准则:为最小化总体风险,需要在每个样本上选择使条件风险 R ( c ∣ x ) R(c \mid x) R(c∣x)最小的类别标记,即使分类函数满足
h ∗ ( x ) = arg min c ∈ y R ( c ∣ x ) h^{*}(\boldsymbol{x})=\underset{c \in y}{\arg \min } R(c \mid \boldsymbol{x}) h∗(x)=c∈yargminR(c∣x)
此时 h ∗ h^{*} h∗称为贝叶斯最优分类器。
若条件风险中的判断损失取值为0、1,则条件风险
R ( c ∣ x ) = 1 − P ( c ∣ x ) R(c \mid \boldsymbol{x})=1-P(c \mid \boldsymbol{x}) R(c∣x)=1−P(c∣x)
则贝叶斯最优分类器为
h ∗ ( x ) = arg max c ∈ Y P ( c ∣ x ) h^{*}(\boldsymbol{x})=\underset{c \in Y}{\arg \max } P(c \mid \boldsymbol{x}) h∗(x)=c∈YargmaxP(c∣x)
综上所述,使用贝叶斯判断准则来最小化风险,需要 使得后验概率 P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(c∣x)最大化 ,而后验概率难以直接获得,因此引入贝叶斯定理
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c \mid \boldsymbol{x})=\frac{P(c) P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})} P(c∣x)=P(x)P(c)P(x∣c)
其中 P ( c ) P(c) P(c)为类的先验概率, P ( x ∣ c ) P(\boldsymbol{x} \mid c) P(x∣c)为类条件概率(似然概率), P ( x ) P(\boldsymbol{x}) P(x)为证据因子。因此估计的问题就转化为如何基于训练数据 D D D来估计先验概率 P ( c ) P(c) P(c)和似然 P ( x ∣ c ) P(\boldsymbol{x} \mid c) P(x∣c)。
P ( c ) P(c) P(c)表示样本空间中各类样本所占的比例,可通过各类样本出现的频率来进行估计
P ( c ) = ∣ D c ∣ ∣ D ∣ P(c)=\frac{\left|D^{c}\right|}{|D|} P(c)=∣D∣∣Dc∣
P ( x ∣ c ) P(\boldsymbol{x} \mid c) P(x∣c)无法直接根据样本出现的频率来估计。
贝叶斯定理的理解:
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c \mid \boldsymbol{x})=P(c) \frac{P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})} P(c∣x)=P(c)P(x)P(x∣c)
P ( c ) P(c) P(c)为该类的概率, P ( x ∣ c ) P ( x ) \frac{P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})} P(x)P(x∣c)为可能性函数,即一个调整因子,也就是已知属性 x x x带来的调整,作用是将先验概率调整为后验概率。
极大似然估计是根据数据采样来估计概率分布参数 。先假定其具有某种确定的概率分布形式 (如正态分布等), 再基于训练样本对概率分布的参数进行估计 。
记关于类别 c c c的类条件概率为 P ( x ∣ c ) P(\boldsymbol{x} \mid c) P(x∣c),假设 P ( x ∣ c ) P(\boldsymbol{x} \mid c) P(x∣c)具有确定的形式并且被参数向量。 c c c唯一确定,则我们的任务就是利用训练集 D D D估计参数 θ c \boldsymbol{\theta}_{c} θc。
令 D c D_{c} Dc表示训练集 D D D中第 c c c类样本组成的集合,假设这些样本是独立同分布的,则参数 θ c {\boldsymbol{\theta}}_{c} θc对于数据集 D c D_{c} Dc的似然是
P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) P\left(D_{c} \mid \boldsymbol{\theta}_{c}\right)=\prod_{\boldsymbol{x} \in D_{c}} P\left(\boldsymbol{x} \mid \boldsymbol{\theta}_{c}\right) P(Dc∣θc)=x∈Dc∏P(x∣θc)
通常使用对数似然
L L ( θ c ) = log P ( D c ∣ θ c ) = ∑ x ∈ D c log P ( x ∣ θ c ) \begin{aligned} L L\left(\boldsymbol{\theta}_{c}\right) &=\log P\left(D_{c} \mid \boldsymbol{\theta}_{\boldsymbol{c}}\right) \\ &=\sum_{x \in D_{c}} \log P\left(\boldsymbol{x} \mid \boldsymbol{\theta}_{c}\right) \end{aligned} LL(θc)=logP(Dc∣θc)=x∈Dc∑logP(x∣θc)
此时参数 θ c {\boldsymbol{\theta}}_{c} θc的极大似然估计 θ ^ c \widehat{\boldsymbol{\theta}}_{c} θ c为
θ ^ c = arg max θ c L L ( θ c ) \widehat{\boldsymbol{\theta}}_{c}=\underset{\boldsymbol{\theta}_{c}}{\arg \max } L L\left(\boldsymbol{\theta}_{c}\right) θ c=θcargmaxLL(θc)
朴素贝叶斯分类器:对已知类别,假设所有属性相互独立。即假设每个属性独立地对分类结果发生影响。
则贝叶斯公式可改写为
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) P(c \mid \boldsymbol{x})=\frac{P(c) P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})}=\frac{P(c)}{P(\boldsymbol{x})} \prod_{i=1}^{d} P\left(x_{i} \mid c\right) P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)i=1∏dP(xi∣c)
其中 d d d为属性数目, x i x_{i} xi为属性值, c c c为分类结果标签。
因此朴素贝叶斯分类器的表达式为
h n b ( x ) = arg max c ∈ Y P ( c ) ∏ i = 1 d P ( x i ∣ c ) h_{n b}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P\left(x_{i} \mid c\right) hnb(x)=c∈YargmaxP(c)i=1∏dP(xi∣c)
训练过程:基于训练集 D D D估计类先验概率, ∣ D ∣ |D| ∣D∣为训练集的样本数
P ( c ) = ∣ D c ∣ ∣ D ∣ P(c)=\frac{\left|D_{c}\right|}{|D|} P(c)=∣D∣∣Dc∣
并为每个属性估计条件概率 P ( x i ∣ c ) P\left(x_{i} \mid c\right) P(xi∣c),离散属性如下
P ( x i ∣ c ) = ∣ D c , x i ∣ ∣ D c ∣ P\left(x_{i} \mid c\right)=\frac{\left|D_{c, x_{i}}\right|}{\left|D_{c}\right|} P(xi∣c)=∣Dc∣∣Dc,xi∣
连续属性如下
p ( x i ∣ c ) = 1 2 π σ c , i exp ( − ( x i − μ c , i ) 2 2 σ c , i 2 ) p\left(x_{i} \mid c\right)=\frac{1}{\sqrt{2 \pi} \sigma_{c, i}} \exp \left(-\frac{\left(x_{i}-\mu_{c, i}\right)^{2}}{2 \sigma_{c, i}^{2}}\right) p(xi∣c)=2πσc,i1exp(−2σc,i2(xi−μc,i)2)
支持向量机是利用支持向量在基于训练集 D D D的样本空间中,找到一个划分超平面,将不同类别的样本分开。划分超平面线性方程如下
w T x + b = 0 \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0 wTx+b=0
其中 w = ( w 1 ; w 2 ; … ; w d ) \boldsymbol{w}=\left(w_{1} ; w_{2} ; \ldots ; w_{d}\right) w=(w1;w2;…;wd)为法向量,决定了超平面的方向; b b b为位移项,决定了超平面与原点之间的距离。划分超平面可被法向量 w w w和位移 b b b确定。
则样本空间中任意点 x x x到超平面的距离为
r = ∣ w T x + b ∣ ∥ w ∥ r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|} r=∥w∥∣∣wTx+b∣∣
若超平面能将训练样本正确分类,则令
{ w T x i + b ⩾ + 1 , y i = + 1 w T x i + b ⩽ − 1 , y i = − 1 \begin{cases}\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \geqslant+1, & y_{i}=+1 \\ \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \leqslant-1, & y_{i}=-1\end{cases} { wTxi+b⩾+1,wTxi+b⩽−1,yi=+1yi=−1
距离超平面最近的几个训练样本点使等号成立,它们被称为"支持向量",他们到超平面的距离为
r = ∣ w T x + b ∣ ∥ w ∥ = 1 ∥ w ∥ r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|}=\frac{1}{\|\boldsymbol{w}\|} r=∥w∥∣∣wTx+b∣∣=∥w∥1
则两个异类支持向量到超平面的距离之和被称为"间隔",即
γ = 2 ∥ w ∥ \gamma=\frac{2}{\|\boldsymbol{w}\|} γ=∥w∥2
欲找到最大间隔的划分超平面,即最大化 γ \gamma γ,仅需最大化 ∥ w ∥ − 1 \|\boldsymbol{w}\|^{-1} ∥w∥−1,等价于最小化 ∥ w ∥ 2 \|\boldsymbol{w}\|^{2} ∥w∥2,即获得支持向量机的基本型
min w , b 1 2 ∥ w ∥ 2 s.t. y i ( w T x i + b ) ⩾ 1 , i = 1 , 2 , … , m \begin{aligned} &\min _{w, b} \frac{1}{2}\|\boldsymbol{w}\|^{2} \\ &\text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, i=1,2, \ldots, m \end{aligned} w,bmin21∥w∥2 s.t. yi(wTxi+b)⩾1,i=1,2,…,m
反向传播算法基于梯度下降策略,以目标的负梯度方向对参数进行调整。反向传播算法的工作流程:
聚类将数据集中的样本划分为若干个不相交的子集,每个子集成为一个簇,每个簇可能对应于潜在的类别。
聚类评价外部指标:JC、FMI、RI
聚类评价内部指标:DBI、DI
闵可夫斯基距离: dist m k ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 p \operatorname{dist}_{\mathrm{mk}}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(\sum_{u=1}^{n}\left|x_{i u}-x_{j u}\right|^{p}\right)^{\frac{1}{p}} distmk(xi,xj)=(∑u=1n∣xiu−xju∣p)p1
当时 p = 2 p=2 p=2为欧氏距离,当时 p = 1 p=1 p=1为曼哈顿距离。
给定样本集 D = { x 1 , x 2 , … , x m } D=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \ldots, \boldsymbol{x}_{m}\right\} D={ x1,x2,…,xm},"k均值"算法针对聚类所得簇划分 C = { C 1 , C 2 , … , C k } \mathcal{C}=\left\{C_{1}, C_{2}, \ldots, C_{k}\right\} C={ C1,C2,…,Ck}最小化平均误差
E = ∑ i = 1 k ∑ x ∈ C i ∥ x − μ i ∥ 2 2 E=\sum_{i=1}^{k} \sum_{x \in C_{i}}\left\|\boldsymbol{x}-\boldsymbol{\mu}_{i}\right\|_{2}^{2} E=i=1∑kx∈Ci∑∥x−μi∥22
算法流程如图所示,简单概述为:
密度聚类算法从样本密度的角度来考察样本间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。
DBSCAN将簇定义为:由密度可达关系导出的最大的密度相连样本集合。形式化地说,给定邻域参数 ( ϵ , MinPts ) (\epsilon, \text { MinPts }) (ϵ, MinPts ),簇 C ⊆ D C \subseteq D C⊆D是满足以下性质的非空样本子集:
连接性(connectivity): x i ∈ C , x j ∈ C ⇒ x i \boldsymbol{x}_{i} \in C, \boldsymbol{x}_{j} \in C \Rightarrow \boldsymbol{x}_{i} xi∈C,xj∈C⇒xi与 x j \boldsymbol{x}_{j} xj密度相连
最大性(maximality): x i ∈ C \boldsymbol{x}_{i} \in C xi∈C, x j \boldsymbol{x}_{j} xj由 x i \boldsymbol{x}_{i} xi密度可达 ⇒ x j ∈ C \Rightarrow \boldsymbol{x}_{j} \in C ⇒xj∈C
DBSCAN算法描述如图所示,概述如下:
KNN(k-Nearest Neighbor)属于懒惰学习的代表,其工作机制非常简单:给定测试样本,找出训练集中与其最靠近的k个训练样本,然后基于这k个"邻居"的信息来进行预测。
在分类任务中可使用"投票法",即选择这k个样本中出现最多的类别标记作为预测结果;
在回归任务中时使用"平均法",即将这k个样本的实值输出标记的平均值作为预测结果。
主成分分析是最常用的一种降维方法。PCA算法描述如下
若所有样本点的投影尽可能分开,则应该使投影后样本点的方差最大化。