eg:(色泽=青绿,根蒂=卷缩),(色泽=乌黑,根蒂=稍卷)
eg:((色泽=青绿,根蒂=卷缩),好瓜)
分类:欲预测的是离散数据
回归:欲预测的是连续数据
聚类:将训练集分为若干组,每个组称为簇
监督学习:训练集合有标记(分类,回归)
无监督学习:训练集合无标记(聚类)
范化:学习模型适用于新样本的能力
假设空间:?* ?* ?+1
奥卡姆剃刀:若多个假设与观察一致。则选择最简单的。
训练误差:学习器在训练集上的误差,又称为经验误差
泛化误差:学习器在新样本上的误差。
过拟合:训练样本学习的过多,模型泛化能力下降
欠拟合:对训练样本的一般特性尚未学习好
使用测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似
直接将数据集D划分为两个互斥的集合,其中一个集合为训练集S,另外一个作为测试集T,即D=S U T, SNT=空
tips:
将数据集D划分为k个大小相似的互斥子集,即D = D1 U D2 U…U DK,每次使用k-1个子集的并集作为训练,余下的作为测试,最后取均值。
tips:
对包含m个样本的数据集D,我们对它进行采样产生数据集D’:每次随机重D中挑选一个样本,将其拷贝放入D’中,然后将该样本放回数据集D中,重复m次,得到D’,以D’为训练集,D!=D’为测试集。
tips:
衡量模型范化能力的评价标准
常用均分误差
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D) = \frac{1}{m} \displaystyle\sum_{i=1}^{m} (f(x_i)-y_i)^2 E(f;D)=m1i=1∑m(f(xi)−yi)2
错误率:分类错误的样本占总样本数目的比例
精度:分类正确的样本数占样本总数的比例
E ( f ; D ) = 1 m ∑ i = 1 m ∏ ( f ( x i ) ≠ y i ) E(f;D) = \frac{1}{m} \displaystyle\sum_{i=1}^{m} \prod(f(x_i)\neq y_i) E(f;D)=m1i=1∑m∏(f(xi)=yi)
a c c ( f ; D ) = 1 m ∑ i = 1 m ∏ ( f ( x i ) = y i ) = 1 − E ( f ; D ) acc(f;D) = \frac{1}{m} \displaystyle\sum_{i=1}^{m} \prod(f(x_i)= y_i) = 1-E(f;D) acc(f;D)=m1i=1∑m∏(f(xi)=yi)=1−E(f;D)
预测情况\预测情况 | 正例 | 反例 |
---|---|---|
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
精确率:
查 准 率 = P = T P T P + F P 查准率 = P = \frac{TP}{TP+FP} 查准率=P=TP+FPTP
召回率:
查 准 率 = R = T P T P + F N 查准率 = R = \frac{TP}{TP+FN} 查准率=R=TP+FNTP
(1)P-R曲线:以查准率为纵轴,查全率为横轴作图,根据比较平衡点(P=R)判断学习器的优劣
(2)F1度量
F 1 = 2 P ∗ R P + R = 2 T P 2 T P + F P + F N F1 = \frac{2P*R}{P+R} = \frac{2TP}{2TP+FP+FN} F1=P+R2P∗R=2TP+FP+FN2TP
F1度量的一般形式为 F β \mathop F_\beta Fβ:
F β = 1 + β 2 ∗ P ∗ R β 2 ∗ P + R F_\beta=\frac {1+\beta ^2*P*R}{\beta^2*P+R} Fβ=β2∗P+R1+β2∗P∗R
当 β = 1 \mathop\beta=1 β=1时退化为标准F1,当 β > 1 \mathop\beta>1 β>1时查全率影响大,当 β < 1 \mathop\beta<1 β<1时,查准率影响大。
当在多个混謵矩阵上进行综合考察时,分别求得P,R取平均,即宏查全率,宏查准率,与宏F1:
m a c r o − F 1 = 2 ∗ m a c r o − P ∗ m a c r o − R m a c r o − P + m a c r o − R macro - F1 = \frac {2*macro-P*macro-R}{macro-P+macro-R} macro−F1=macro−P+macro−R2∗macro−P∗macro−R
分别求得TP,FP,FN,TP,取平均,即微查准率
m i c r o − P = T P ‾ T P ‾ + F P ‾ micro -P = \frac {\overline {TP}}{\overline {TP} + \overline {FP}} micro−P=TP+FPTP
m i c r o − F 1 = 2 ∗ m i c r o − P ∗ m i c r o − R m i c r o − P + m i c r o − R micro - F1 = \frac {2*micro-P*micro-R}{micro-P+micro-R} micro−F1=micro−P+micro−R2∗micro−P∗micro−R
ROC曲线的纵轴是真正例率,横轴是假正例率,TPR/FPR
T P R = T P T P + F N TPR = \frac{TP}{TP+FN} TPR=TP+FNTP
F P R = F P T N + F P FPR = \frac{FP}{TN+FP} FPR=TN+FPFP
AUC是ROC曲线下的面积
非均等代价:权衡不同错误所造成的不同损失
以二分类任务为例, c o s t i j \mathop cost_{ij} costij表示将第i类判断为第j类的代价
第0类 | 第1类 | |
---|---|---|
第0类 | 0 | c o s t 01 \mathop cost_{01} cost01 |
第1类 | c o s t 10 \mathop cost_{10} cost10 | 0 |
若将第0类作为正例,第1类作为反例,另D+和D-分别代表样例集D中正/反类的子例。
代价敏感错误率:
E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + ∏ ( f ( x i ) ≠ y i ) ∗ c o s t 01 + ∑ x i ∈ D − ∏ ( f ( x i ) ≠ y i ) ∗ c o s t 10 ) E(f;D;cost) = \frac{1}{m}( \displaystyle\sum_{x_i\in D^+} \prod(f(x_i)\neq y_i)*cost_{01} +\displaystyle\sum_{x_i\in D^-} \prod(f(x_i)\neq y_i)*cost_{10} ) E(f;D;cost)=m1(xi∈D+∑∏(f(xi)=yi)∗cost01+xi∈D−∑∏(f(xi)=yi)∗cost10)
代价曲线:横轴是取值为[0,1]的正例概率代价
P ( t ) c o s t = P ∗ c o s t 01 P ∗ c o s t 01 + ( 1 − P ) ∗ c o s t 10 P_{(t)}cost = \frac{P*cost_{01}}{P*cost{01}+(1-P)*cost{10}} P(t)cost=P∗cost01+(1−P)∗cost10P∗cost01
纵轴是取值为[0,1]的归一化代价
c o s t n o r m = F N R ∗ P ∗ c o s t 01 + F P R ∗ ( 1 − P ) ∗ c o s t 10 P ∗ c o s t 01 + ( 1 − P ) ∗ c o s t 10 cost{norm} = \frac{FNR*P*cost_{01}+FPR*(1-P)*cost_{10}}{P*cost_{01}+(1-P)*cost_{10}} costnorm=P∗cost01+(1−P)∗cost10FNR∗P∗cost01+FPR∗(1−P)∗cost10
代价曲线的绘制:ROC曲线上的每一个点对应代价平面上的一个线段,ROC曲线上的每一个点的坐标为(FPR,TPR),可在代价平面上绘制一条(0,FPR)到(1,FNR)的线段,线段下的面积为该条件下的期待总代价,如此多个线段围城的面积在所有条件下学习器的期望总体代价。
对当个学习器泛化性能的假设进行检验
泛化误差可以分解为偏差,方差和噪声之和
偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。
方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。