真实类别\预测类别 | 正例 | 负例 |
---|---|---|
正例 | TP | FN |
负例 | FP | TN |
P = T P T P + F P , R = T P T P + F N P=\frac{TP}{TP+FP}, R=\frac{TP}{TP+FN} P=TP+FPTP,R=TP+FNTP
P-R曲线:横轴为召回率,纵轴为精确率。
ROC曲线:横轴为假阳性率(FPR),纵轴为真阳性率(TPR)。相比P-R曲线,当正负样本的分布发生变化时,ROC曲线的形状能够基本保持不变,而P-R曲线一般会发生剧烈的变化,所以在实际场景中,正负样本往往分布不均衡而ROC比较稳定更能判断模型的好坏。
F P R = F P T N + F N , T P R = T P T P + F P FPR=\frac{FP}{TN+FN},TPR=\frac{TP}{TP+FP} FPR=TN+FNFP,TPR=TP+FPTP
例子: 假设10位学生,老师觉得有3位学生期末考试不会及格(N=3),另外7位期末考试通过考试(P=7),学校组织期末考试后,这3名学生中有2位通过考试,另外7名学生中有6位学生通过考试。这里老师相当于是我们的分类器,而期末考试则是真实结果,那么对于该分类器TPR=TP/P=6/7,FPR=FP/N=1/3
如何绘制ROC曲线:
模型在训练集上表现很好,在测试集上和新数据上的表现很差。
解决方法
模型在训练和预测时表现都不好。
解决方法
超参数: 学习器模型中一般有两种参数,一种参数是可以从学习中得到,还有一种无法靠数据里面得到,只能靠人的经验来设定,这类参数就叫做超参数。
距离的特性:
特点: 闵可夫斯基距离比较直观,与数据的分布无关,但往往数据各个分量的分布可能不一样。具有一定的局限性,会放大幅值大的维度,所以往往需要进行归一化处理。前提假设是,数据之间是不相关的。
定义: A = ( x 1 , . . . , x n ) A=(x_1,...,x_n) A=(x1,...,xn), B = ( y 1 , . . . , y n ) B=(y_1,...,y_n) B=(y1,...,yn),则 D A B = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p D_{AB}=({\sum_{i=1}^{n}|x_i-y_i|^p)^\frac{1}{p}} DAB=(∑i=1n∣xi−yi∣p)p1
定义: A = ( x 1 , y 1 ) A=(x_1,y_1) A=(x1,y1), B = ( x 2 , y 2 ) B=(x_2,y_2) B=(x2,y2),则 D A B = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ D_{AB}=|x_1-x_2|+|y_1-y_2| DAB=∣x1−x2∣+∣y1−y2∣
定义: A = ( x 1 , . . . , x n ) A=(x_1,...,x_n) A=(x1,...,xn), B = ( y 1 , . . . , y n ) B=(y_1,...,y_n) B=(y1,...,yn),则 D A B = ∑ i = 1 n ( x i − y i ) 2 D_{AB}=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2} DAB=∑i=1n(xi−yi)2
定义: A = ( x 1 , . . . , x n ) A=(x_1,...,x_n) A=(x1,...,xn), B = ( y 1 , . . . , y n ) B=(y_1,...,y_n) B=(y1,...,yn),则
D A B = lim p → + ∞ ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p = max i = 1 n ∣ x i − y i ∣ = ∣ ∣ X − Y ∣ ∣ + ∞ D_{AB}=\lim_{p\rightarrow+\infty}({\sum_{i=1}^{n}|x_i-y_i|^p)^\frac{1}{p}}=\max_{i=1}^{n}|x_i-y_i|=||X-Y||_{+\infty} DAB=p→+∞lim(i=1∑n∣xi−yi∣p)p1=i=1maxn∣xi−yi∣=∣∣X−Y∣∣+∞
利用Cholesky Transformation来消除不同维度之间的相关性和尺度,将协方差矩阵进行LU分解转化为下三角矩阵和上三角矩阵的乘积: ∑ = L L T \sum=LL^T ∑=LLT。消除不同维度之间的相关性和尺度,只需要对样本进行去均值之后左乘 L − 1 L^{-1} L−1, Z = L − 1 ( X − u ) Z=L^{-1}(X-u) Z=L−1(X−u),那么马氏距离的平方:
Z T Z = ( L − 1 ( X − u ) ) T ( L − 1 ( X − u ) ) = ( X − u ) T ∑ − 1 ( X − u ) Z^TZ=(L^{-1}(X-u))^T(L^{-1}(X-u))=(X-u)^T\sum^{-1}(X-u) ZTZ=(L−1(X−u))T(L−1(X−u))=(X−u)T∑−1(X−u)
若协方差矩阵是单位矩阵,即各个样本向量之间独立同分布,那么巴氏距离就变成了欧式距离,若协方差矩阵是对角矩阵,那么巴氏距离就变成了标准化欧氏距离。
定义: A = ( x 1 , . . . , x n ) A=(x_1,...,x_n) A=(x1,...,xn), B = ( y 1 , . . . , y n ) B=(y_1,...,y_n) B=(y1,...,yn),则夹角余弦公式:
cos A B = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 ∑ i = 1 n y i 2 \cos_{AB}=\frac{\sum_{i=1}^{n}{x_iy_i}}{\sqrt{\sum_{i=1}^{n}x_i^2}\sqrt{\sum_{i=1}^{n}y_i^2}} cosAB=∑i=1nxi2∑i=1nyi2∑i=1nxiyi
定义: A = ( x 1 , . . . , x n ) A=(x_1,...,x_n) A=(x1,...,xn), B = ( y 1 , . . . , y n ) B=(y_1,...,y_n) B=(y1,...,yn),则皮尔逊相似度:
C o r r A B = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 Corr_{AB}=\frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}} CorrAB=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)
杰卡德相似系数:
J ( A , B ) = ∣ A ⋂ B ∣ ∣ A ⋃ B ∣ J(A,B)=\frac{|A\bigcap{B}|}{|A\bigcup{B}|} J(A,B)=∣A⋃B∣∣A⋂B∣
杰卡德距离:
J δ ( A , B ) = 1 − J ( A , B ) J_\delta(A,B)=1-J(A,B) Jδ(A,B)=1−J(A,B)
可将杰卡德相似系数用在衡量样本的相似度上。 样本A与样本B是两个n维向量,而且所有维度的取值都是0或1。例如:A(0111)和B(1011)。我们将样本看成是一个集合,1表示集合包含该元素,0表示集合不包含该元素。
p :样本A与B都是1的维度的个数
q:样本A是1,样本B是0的维度的个数
r:样本A是0,样本B是1的维度的个数
s:样本A与B都是0的维度的个数
那么样本A与B的杰卡德相似系数可以表示为:
J = q + r p + q + r J=\frac{q+r}{p+q+r} J=p+q+rq+r
这里p+q+r可理解为A与B的并集的元素个数,而p是A与B的交集的元素个数。
而样本A与B的杰卡德距离表示为:
J = p p + q + r J=\frac{p}{p+q+r} J=p+q+rp
本文来自 qq_26091271 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/qq_26091271/article/details/52528625?utm_source=copy
定义:
ρ X Y = c o v ( X , Y ) d ( X ) d ( Y ) \rho_{XY}=\frac{cov(X,Y)}{\sqrt{d(X)}\sqrt{d(Y)}} ρXY=d(X)d(Y)cov(X,Y)