**数据上:**⼩数据重抽样,⼤数据重全体。**方法上:**⼩数据重实证,⼤数据重优化。**目标上:**⼩数据重解释,⼤数据重预测。
SAS公司的数据挖掘项⽬实施⽅法论,对CRISP-DM⽅法中的数据准备和建模环节进⾏了拓展,被称为SEMMA方法,如下图所示。
业务问题是需求,最终需要转换成统计或数据挖掘等问题,⽤数据分析的思路来解决,因此数据分析师在业务与数据间起到协调作⽤,是业务问题能否成功转换成统计问题的关键。所以协调者、数据分析师、报告⼈的⻆⾊,决定了数据分析师是⼀名(精通数理和软件的)综合型⼈才。
名义测量-分类变量;次序测量-顺序变量;连续变量-数值变量(可细分为间距测量和比例测量)
频次
百分比
累积频次与累积百分比
通常检查数据的众数、频次、百分⽐、累积频次与累积百分⽐、四分位差等。
对于连续变量,通常检查中⼼⽔平、离散程度、偏度和峰度4个⽅⾯。
中心水平(众数、中位数、均值)
中位数
M = { x ( n + 1 2 ) n 为奇数 1 2 ( x n 2 + x ( n 2 + 1 ) ) n 为偶数 M=\begin{cases} x_{(\frac{n+1}{2})} \quad \quad \quad \quad n为奇数\\ \frac{1}{2}({x_{\frac{n}{2}}+x_{(\frac{n}{2}+1)}})\ \ n为偶数 \end{cases} M={x(2n+1)n为奇数21(x2n+x(2n+1)) n为偶数
其中n为数据量
四分位数
算术平均数
样本平均数
x ‾ = x 1 + x 2 + . . . + x n n = ∑ i = 1 n x i n \overline{x}=\frac{x_1+x_2+...+x_n}{n}=\frac{\sum^n_{i=1}x_i}{n} x=nx1+x2+...+xn=n∑i=1nxi
总体平均数
μ = x 1 + x 2 + . . . + x N N = ∑ i = 1 N x i N \mu=\frac{x_1+x_2+...+x_N}{N}=\frac{\sum^N_{i=1}x_i}{N} μ=Nx1+x2+...+xN=N∑i=1Nxi
这⾥的 n n n 是样本数据量, N N N 是总体数据量,样本是⽤来估计总体的。
加权平均数
样本加权平均
x ‾ = x 1 f 1 + x 2 f 2 + . . . + x n f k f 1 + f 2 + . . . + f k = ∑ i = 1 k x i f i n \overline{x}=\frac{x_1f_1+x_2f_2+...+x_nf_k}{f_1+f_2+...+f_k}=\frac{\sum^k_{i=1}x_if_i}{n} x=f1+f2+...+fkx1f1+x2f2+...+xnfk=n∑i=1kxifi
总体加权平均
x ‾ = x 1 f 1 + x 2 f 2 + . . . + x n f k f 1 + f 2 + . . . + f k = ∑ i = 1 k x i f i N \overline{x}=\frac{x_1f_1+x_2f_2+...+x_nf_k}{f_1+f_2+...+f_k}=\frac{\sum^k_{i=1}x_if_i}{N} x=f1+f2+...+fkx1f1+x2f2+...+xnfk=N∑i=1kxifi
这⾥的 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk 表示各组数据的组中值或数据本身, f 1 , f 2 , . . . , f k f_1,f_2,...,f_k f1,f2,...,fk表示各组频数或数据权重。
几何平均数
适用于计算比率数据的平均,主要用于计算平均增长率
G = x 1 × x 2 × . . . × x n n = ∏ i = 1 n x i n G=\sqrt[n]{x_1\times x_2\times ...\times x_n}=\sqrt[n]{\prod^n_{i=1}x_i} G=nx1×x2×...×xn=ni=1∏nxi
离散程度
异众比率
r = ∑ f i − f m ∑ f i = 1 − f m ∑ f i r=\frac{\sum f_i-f_m}{\sum f_i}=1-\frac{f_m}{\sum f_i} r=∑fi∑fi−fm=1−∑fifm
f m f_m fm表示众数的频率
方差公式
σ 2 = ∑ N i = 1 ( x i − μ ) 2 N \sigma^2=\frac{{\sum^N}{i=1}(x_i-\mu)^2}{N} σ2=N∑Ni=1(xi−μ)2
标准差
总体
σ = ∑ i = 1 N ( x i − μ ) 2 N \sigma=\sqrt{\frac{\sum^N_{i=1}(x_i-\mu)^2}{N}} σ=N∑i=1N(xi−μ)2
样本
S = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 S=\sqrt{\frac{\sum^n_{i=1}(x_i-\overline x)^2}{n-1}} S=n−1∑i=1n(xi−x)2
偏度峰度
随机试验是概率论的⼀个基本概念。
在概率论中,随机事件(或简称事件)指的是⼀个被赋予机率的事物集合,也就是样本空间中的⼀个⼦集。
设随机试验的样本空间 S = ( e ) , X = X ( e ) S=(e),X=X(e) S=(e),X=X(e)是定义在样本空间上的单值实值函数,称为随机变量
总体:试验的全部可能的观察值称为总体。
样本:指从全体中随机抽取的个体。
从均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的任意一个总体 X X X中抽取容量为 n n n的样本,
当 n n n充分大时,样本均值 x ‾ \overline{x} x的抽样分布近似服从均值为 μ \mu μ、方差为 σ 2 / n \sigma^2/n σ2/n的正态分布
根据中心极限定理,我们知道如果做很多次抽样的话会得到很多个 x ‾ \overline{x} x,而这些 x ‾ \overline{x} x拍起来会形成正态分布,它们的平均数是 μ \mu μ ,标准差是 σ / n \sigma/\sqrt{n} σ/n
而有68%的 x ‾ \overline{x} x会落在 μ ± σ / n \mu \pm \sigma/ \sqrt{n} μ±σ/n之间,有约95%的 x ‾ \overline{x} x会落在 μ ± 2 σ / n \mu \pm 2\sigma/ \sqrt{n} μ±2σ/n之间,有约99.7%的 μ ± σ / n \mu \pm \sigma/ \sqrt{n} μ±σ/n会落在 μ ± 3 σ / n \mu \pm 3\sigma/ \sqrt{n} μ±3σ/n之间。
⽤样本平均数 x ‾ \overline{x} x来估计总体的平均数 μ \mu μ称为点估计。
用样本观察值的标准差 S S S来估计 σ \sigma σ
S 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 S^2=\frac{\sum^n_{i=1}(x_i-\overline{x})^2}{n-1} S2=n−1∑i=1n(xi−x)2
(1)建立原假设 H 0 H_0 H0成立,备择假设 H 1 H_1 H1;原假设 H 0 H_0 H0: μ 1 = μ 2 \mu_1=\mu_2 μ1=μ2(或 μ 1 ≥ μ 2 \mu_1\ge\mu_2 μ1≥μ2.或 μ 1 ≤ μ 2 \mu_1\leq\mu_2 μ1≤μ2)备择假设 H 1 H_1 H1: μ ≠ μ 2 \mu\ne\mu_2 μ=μ2(或 μ 1 < μ 2 \mu_1<\mu_2 μ1<μ2. μ 1 > μ 2 \mu_1>\mu_2 μ1>μ2).一般假设 H 0 H_0 H0为真,对其统计检验, H 0 H_0 H0与 H 1 H_1 H1对立,二者择一
(2)确定⼩概率事件的界值。⼀般情况下我们将p<0.05或p<0.01作为⼩概率的界值。(这⾥的0.05和0.01称为显著性⽔平)
(3)获取样本,即随机抽样。
(4)选择检验的⽅法,选择具体的检验统计量并计算。
(5)确定P值,并根据P值与显著性⽔平的关系得出相应结论。
假设检验的基本思想为验证性数据分析,强调先验理论在数据分析中的核⼼地位。
(1)⼀个总体,总体均值的假设检验,总体正态,总体⽅差已知
z = x ‾ − μ 0 σ / n z=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}} z=σ/nx−μ0
(2)⼀个总体,总体均值的假设检验,总体正态,总体⽅差未知,⼩样本(通常是指⼩于30)。
t = x ‾ − μ 0 S / n t=\frac{\overline{x}-\mu_0}{S/\sqrt{n}} t=S/nx−μ0
(3)⼀个总体,总体均值的假设检验,总体为⾮正态分布,总体⽅差未知,⼤样本。原则上⽤⾮参数检验; n n n的样本量较⼤( 30 或50), 服从近似正态分布 (总体已知)。
z = x ‾ − μ 0 S / n z=\frac{\overline{x}-\mu_0}{S/\sqrt{n}} z=S/nx−μ0
(4) χ 2 \chi^2 χ2检验统计量⽤于单个总体的⽅差检验。
χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) χ2=σ2(n−1)S2∼χ2(n−1)
(5) 检验统计量⽤于两个总体的方差检验,原假设 H 0 H_0 H0: σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22 检验统计量:
F = S 1 2 / S 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=S_1^2/S_2^2\sim F(n_1-1,n_2-1) F=S12/S22∼F(n1−1,n2−1)
(6)P 值是⼀种概率,当 P P P值小于显著性水平的时候,就需要拒绝原假设,否则就无法拒绝原假设。
⽤于检验两样本是否来⾃相同均值的总体。
**原理:**计算 t t t统计量
公式:
两个总体方差相等
t = ( x 1 ‾ − x 2 ‾ ) − ( μ 1 − μ 2 ) S p 1 n 1 + 1 n 2 t=\frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} t=Spn11+n21(x1−x2)−(μ1−μ2)
两个总体方差不相等
t = ( x 1 ‾ − x 2 ‾ ) − ( μ 1 − μ 2 ) S 1 2 n 1 + S 2 2 n 2 t=\frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} t=n1S12+n2S22(x1−x2)−(μ1−μ2)
**适⽤条件:**⽤于⼩样本(例如 n < 30 n<30 n<30),且总体标准差 σ \sigma σ未知的正态分布样本。
**操作流程:**分析→⽐较均值→独⽴样本 t t t检验
**Levene检验:**⽤于检验⽅差是否⻬性。 F F F检验不显著( p > 0.05 p>0.05 p>0.05),则满⾜⽅差⻬(总体⽅差相
等),反之,方差不奇(总体⽅差不相等)。
指根据试验结果,鉴别各个有关因素对试验结果影响的有效⽅法。是⽅差的可加性原则。
指将所获得的数据按某些项⽬分类后,再分析各组数据之间有⽆差异的⽅法,其本质是检验多个总体均值是否相等,其计算过程可以理解为是变异分解过程。
提出假设。 H 0 H_0 H0: μ 1 = μ 2 = . . . = μ k \mu_1=\mu_2=...=\mu_k μ1=μ2=...=μk,各个水平均值相等,即自变量对因变量没有显著影响
构造检验统计量( F F F统计量)
统计决策(根据 P P P值)
S S T = ∑ i = 1 k ∑ j = 1 n i ( X i j − X ‾ ) 2 SST=\sum^k_{i=1}\sum^{n_i}_{j=1}(X_{ij}-\overline{X})^2 SST=i=1∑kj=1∑ni(Xij−X)2
S S A = ∑ i = 1 k ∑ j = 1 n i ( X i ‾ − X ‾ ) 2 = ∑ i = 1 k n i ( X i ‾ − X ‾ ) 2 SSA=\sum^k_{i=1}\sum^{n_i}_{j=1}(\overline{X_i}-\overline{X})^2=\sum^k_{i=1}n_i(\overline{X_i}-\overline{X})^2 SSA=i=1∑kj=1∑ni(Xi−X)2=i=1∑kni(Xi−X)2
S S E = ∑ i = 1 k ∑ j = 1 n i ( X i j − X i ‾ ) 2 SSE=\sum^k_{i=1}\sum^{n_i}_{j=1}(X_{ij}-\overline{X_i})^2 SSE=i=1∑kj=1∑ni(Xij−Xi)2
∑ i = 1 k ∑ j = 1 n i ( X i j − X ‾ ) 2 = ∑ i = 1 k n i ( X i ‾ − X ‾ ) 2 + ∑ i = 1 k ∑ j = 1 n i ( X i j − X ‾ ) 2 \sum^k_{i=1}\sum^{n_i}_{j=1}(X_{ij}-\overline{X})^2=\sum^k_{i=1}n_i(\overline{X_i}-\overline{X})^2+\sum^k_{i=1}\sum^{n_i}_{j=1}(X_{ij}-\overline{X})^2 i=1∑kj=1∑ni(Xij−X)2=i=1∑kni(Xi−X)2+i=1∑kj=1∑ni(Xij−X)2
其中:
X i ‾ = ∑ j = 1 n i X i j n i , i = 1 , 2 , . . . , k \overline{X_i}=\frac{\sum^{n_i}_{j=1}X_{ij}}{n_i}\ ,\ i=1,2,...,k Xi=ni∑j=1niXij , i=1,2,...,k
X ‾ = ∑ i = 1 k ∑ j = 1 n i X i j n = ∑ i = 1 k n i X i ‾ n \overline{X}=\frac{\sum^k_{i=1}\sum^{n_i}_{j=1}X_{ij}}{n}=\frac{\sum^k_{i=1}n_i\overline{X_i}}{n} X=n∑i=1k∑j=1niXij=n∑i=1kniXi
其中 n = n 1 + n 2 + . . . + n k n=n_1+n_2+...+n_k n=n1+n2+...+nk
M S A = S S A k − 1 MSA=\frac{SSA}{k-1} MSA=k−1SSA
SSA的自由度为 k − 1 k-1 k−1
M S E = S S E n − k MSE=\frac{SSE}{n-k} MSE=n−kSSE
S S E SSE SSE的自由度为 n − k n-k n−k
F = M S A M S E ∼ F ( k − 1 , n − k ) F=\frac{MSA}{MSE}\sim{F(k-1,n-k)} F=MSEMSA∼F(k−1,n−k)
将统计量 F F F 的值与给定的显著性⽔平 的临界值 F α F_{\alpha} Fα进⾏⽐较(或者⽤ P P P值与 α \alpha α比较),作出对原假
设 H 0 H_0 H0的决策
方差齐性
LSD:实际上是t检验的变形,只是在变异和⾃由度的计算上利⽤了整体样本的信息,仍然存在放⼤⼀类错误的问题。
**Scheffe法:**当各组⼈数不等,或想进⾏复杂的⽐较时,较为稳妥。
SNK法:是运⽤最⼴泛⼀种两两⽐较的⽅法,它采⽤student range 分布进⾏所有各组均值间的配对⽐较。
方差不齐
建议games-howell稍好⼀点,但最好⽤⾮参的⽅法。
方差分析中的方差齐性判断
在方差分析中,所谓方差齐性检验,就是判断两组或多组的方差是否相等。
虽然所有点都在直线上,但是我们不能说两个变量是函数关系,这是因为我们看到的是样本,并且我们假设两个变量是随机变量,⽽我们需要推导的是两个总体的关系。
⼀元线性回归中,对于同⼀个问题,估计标准误差就意味着样本点到回归线的距离越近,那么两个变量的线性相关性就越强,相关系数越⼤
⼀般情况下,如果不做特殊说明,指的就是线性相关。
如果相关系数是根据变量的样本数据计算的,即为了推断总体,那么则称为样本相关系数(虽然有的时候在部分资料⾥并不严格说明),记为 r r r (有的教材⾥也称为Pearson相关系数)
r = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ 2 ) × ∑ i = 1 n ( y i − y ‾ 2 ) r=\frac{\sum^n_{i=1}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum^n_{i=1}(x_i-\overline{x}^2)\times\sum^n_{i=1}(y_i-\overline{y}^2)}} r=∑i=1n(xi−x2)×∑i=1n(yi−y2)∑i=1n(xi−x)(yi−y)
与相关系数 类似, 的取值范围是[-1,1], ∣ r ∣ |r| ∣r∣越接近于1则说明两个变量的相关性越强。且有以下5种情况:
虽然没有严格的规定,但是我们往往习惯按照下⾯的⽅式对相关性强度进⾏分级:
由于 r r r只是样本线性相关系数,⽆论其数值等于多少,我们需要推断的始终是总体的相关性如何,这时候我们就需要运⽤显著性检验的知识了。我们运⽤R.A.Fisher提出的 t t t检验⽅法来检验两个变量总体之间是否存在线性相关关系
t = ∣ r ∣ n − 2 1 − r 2 ∼ t ( n − 2 ) t=|r|\sqrt{\frac{n-2}{1-r^2}}\sim{t(n-2)} t=∣r∣1−r2n−2∼t(n−2)
探索影响因变量的可能因素;
利⽤回归模型进⾏预测。
相关分析侧重反映散点的疏密程度。
回归分析侧重反映散点的趋势程度。
第⼀步:总平方和分解
∑ i = 1 n ( y i − y ‾ ) 2 = ∑ i = 1 n ( y i ^ − y ‾ ) 2 + ∑ i = 1 n ( y i − y i ^ ) 2 \sum^n_{i=1}(y_i-\overline{y})^2=\sum^n_{i=1}(\hat{y_i}-\overline{y})^2+\sum^n_{i=1}(y_i-\hat{y_i})^2 i=1∑n(yi−y)2=i=1∑n(yi^−y)2+i=1∑n(yi−yi^)2
即 S S T = S S R + S S E SST=SSR+SSE SST=SSR+SSE。其中:
第二步:计算判定系数 R 2 R^2 R2
R 2 = S S R S S T R^2=\frac{SSR}{SST} R2=SSTSSR
即回归平⽅和占总误差平⽅和的⽐例。
第三步:残差标准误
S S E SSE SSE并不适合相对客观的反映估计值与样本值的偏离程度,我们需要将 S S E SSE SSE处理成相对值。于是我们令 R S E = S S E n − 2 RSE=\sqrt{\frac{SSE}{n-2}} RSE=n−2SSE,其中 n − 2 n-2 n−2是⾃由度。这个公式可以粗略的理解为,通过除以⾃由度,得到残差平⽅的均值;再开根号则可以将⽅差转化成标准差,也成为估计标准误差。
第四步:线性关系检验
提出假设: H 0 : β 1 = 0 H_0:\beta_1=0 H0:β1=0,即线性关系不显著
β 1 \beta_1 β1在模型中可以理解为斜率,如果斜率等于0那么自然没有线性关系了。
计算检验统计量:
F = S S R / 1 S S E / ( n − 2 ) = M S R M S E : F ( 1 , n − 2 ) F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}:F(1,n-2) F=SSE/(n−2)SSR/1=MSEMSR:F(1,n−2)
分子分母都除以自由度,这样就把“平方和”转为“均和”(字母M就是mean),其意义是比较“⾃变量与因
变量的线性关系”(分子)和“⾃变量以外的随机因素”(分母)分别对于因变量波动的影响大小。如果分
⼦远大于分⺟,那么就说明线性关系对于因变量波动的显著的大,否则这说明影响不显著。
设定临界值:确定显著性水平 α \alpha α并根据分子自由度1和父母自由度 n − 2 n-2 n−2找出临界值 F α F_{\alpha} Fα.及其P值
决策, F > F α F>F_{\alpha} F>Fα拒绝 H 0 H_0 H0,否则接受
第五步:回归系数检验
提出假设: H 0 : β 1 = 0 H_0:\beta_1=0 H0:β1=0,即⾃变量与因变量没有线性关系。
计算检验的统计量:
t = β 1 ^ S β 1 ^ : t ( n − 2 ) t=\frac{\hat{\beta_1}}{S_{\hat{\beta_1}}}:t(n-2) t=Sβ1^β1^:t(n−2)
这里的KaTeX parse error: Got function '\hat' with no arguments as subscript at position 3: S_\̲h̲a̲t̲{\beta_1}是系数的标准差
设定临界值:确定显著性水平 α \alpha α并根据自由度 n − 2 n-2 n−2找出临界值 t α / 2 t\alpha/2 tα/2。在代码结果中,我们更关注 P P P值
决策:
∣ t ∣ > t α / 2 |t|>t\alpha/2 ∣t∣>tα/2,拒绝 H 0 H_0 H0
∣ t ∣ < t α / 2 |t|
在代码结果中, ∣ t ∣ > t α / 2 |t|>t\alpha/2 ∣t∣>tα/2,等价于 P < α P<\alpha P<α
由于⼀元线性回归问题中,只有⼀个⾃变量,因此,回归系数的显著性检验等价于线性关系的显著性检验。
2.5 线性回归模型的假设
假设1:线性关系。因变量 y y y与⾃变量 x x x之间存在线性关系。
假设2:随机抽样。我们的样本数据是来⾃于总体的随机样本,该数据代表着假设1描述的总体。
假设3:期望为0。误差项 ε \varepsilon ε是⼀个期望值为0的随机变量,即 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0。
假设4:同⽅差。给定任意的解释变量 x x x, ε \varepsilon ε的⽅差 σ 2 \sigma^2 σ2都相同的。
假设5:正态性。误差项 ε \varepsilon ε独⽴于解释变量,服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2),且相互独⽴。
机器学习研究如何让计算机不需要明确的程序也能具备学习能⼒。(——Arthur Samuel,1959)
⼀个计算机程序在完成了任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是⽤以衡量的P,随着E的增加⽽增加,可以称其为学习。(——Tom Mitchell,1977)
获取数据、获取一个任务、根据数据和算法进行学习(数据清洗,数据预处理,特征工程)
训练误差的大小,⽤来判断给定问题是不是⼀个容易学习的的问题。测试误差则反映了模型对未知数据的预测能里,测试误差小的学习⽅法具有很好的预测能⼒,如果得到的训练集和测试集的数据没有交集,通常将此预测能力称为泛化能力(generalization ability)。
交叉验证⽅法有很多,其中最常⽤的是k折交叉验证。我们知道训练集和测试集的划分会⼲扰模型的结果,因此⽤交叉验证n次的结果求出的均值,是对模型效果的⼀个更好的度量。
所有的交叉验证都是在分割训练集和测试集,只不过侧重的⽅向不同,像“k 折"就是按顺序取训练集和测试集,ShuffleSplit就侧重于让测试集分布在数据的全⽅位之内,StratififiedKFold则是认为训练数据和测试数据必须在每个标签分类中占有相同的⽐例。
精确度Precision,⼜叫查准率,表示所有被我们预测为是少数类的样本中,真正的少数类所占的比例。精确度越低,则代表我们误伤了过多的多数类。精确度是”将多数类判错后所需付出成本“的衡量。
召回率Recall,⼜被称为敏感度(sensitivity),真正率,查全率,表示所有真实为1的样本中,被我们预测正确的样本所占的⽐例。召回率越⾼,代表我们尽量捕捉出了越多的少数类,召回率越低,代表我们没有捕捉出⾜够的少数类。如果我们希望不计⼀切代价,找出少数类(⽐如找出潜在犯罪者的例⼦),那我们就会追求高召回率。
⽽召回率和精确度是此消彼长的,两者之间的平衡代表了捕捉少数类的需求和尽量不要误伤多数类的需求的平衡。
ROC的全称是Receiver Operating Characteristic Curve,其主要的分析⽅法就是画这条特征曲线。
机器学习的⽅法是基于数据产⽣的 “模型”(model)的算法,也称 “学习算法”(learning algorithm)。包括有监督学习(supervised learning)、⽆监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)。
有监督学习:分类、回归
⽆监督学习:聚类、降维
强化学习不同于监督学习,它将学习看作是试探评价过程,以 “试错” 的⽅式进⾏学习,并与环境进⾏交互已获得奖惩指导⾏为,以其作为评价。此时系统靠⾃身的状态和动作进⾏学习,从⽽改进⾏动⽅案以适应环境。
k近邻算法:KNN算法本质是通过距离判断两个样本是否相似,如果距离够近就认为他们⾜够相似属于同⼀类别。需要找到离其最近的k个样本,并将这些样本称之为「近邻」(nearest-neighbor)。对这k个近邻,查看它们的都属于何种类别(这些类别我们称作「标签」)。然后根据“少数服从多数,⼀点算⼀票”原则进⾏判断,数量最多的的标签类别就是新样本的标签类别。其中涉及到的原理是“越相近越相似”,这也是KNN的基本假设。
决策树(Decision Tree)是⼀种实现分治策略的层次数据结构。它是⼀种有效的⾮参数学习⽅法,并可以⽤于分类和回归。我们主要讨论分类的决策树。树的学习算法是 “贪⼼算法”,从包含全部训练数据的根开始,每⼀步都选择最佳划分。**决策树学习算法包含特征选择、决策树的⽣成与决策树的剪枝。**其中,特征选择运⽤的算法主要包括 “信息熵增益”、“信息增益⽐”、“基尼系数”,分别对应不同的树⽣成算法ID3、C4.5、CART。
朴素贝叶斯是⼀种直接衡量标签和特征之间的概率关系的有监督学习算法,是⼀种专注分类的算法。朴素⻉叶斯的算法根源就是基于概率论和数理统计的⻉叶斯理论,因此它是根正苗红的概率模型。
P ( Y ∣ X ) = P ( X ∣ Y ) ∗ P ( Y ) P ( X ) P(Y|X)=\frac{P(X|Y)*P(Y)}{P(X)} P(Y∣X)=P(X)P(X∣Y)∗P(Y)
P(Y|X)为后验概率,P(X|Y)为条件概率
聚类算法又叫做 ”⽆监督分类“ ,其⽬的是将数据划分成有意义或有用的组(或簇)。聚类可以用于降维和⽮量化,可以将高维特征压缩到⼀列当中,常常用于图像、声⾳、视频等非结构化数据,可以大幅度压缩数据量。
本文链接:http://t.csdn.cn/kgKIG
转载请显示来源~~