相关系数

1.谷本系数 Tanimoto Coefficient

参考:谷本系数

Tanimoto 系数

Tanimoto系数由Jaccard系数扩展而来。两个集合的交比上两个集合的并。
在这里插入图片描述
举例:
两个人拥有相同的东西/两个人所有的东西
可以看出两个人的相关程度,如果拥有相同东西越多表明两个人的兴趣爱好越相同(一般情况下)

Jaccard系数

两个特征向量A,B,如果其值都是0,1的二值数据,那么有一个简单的判定相似性的方法:
F00 = A中为0并且B中也为0的个数, F10 = A1 B0的个数,F01 = A0 B1的个数,F11 = A1 B1 的个数
那么可以定义这么一个similarity:
在这里插入图片描述
这叫做(simplematch coefficient)SMC,简单匹配系数。
很多情况下,两个向量中,0的个数会大大多于1的个数,也就很稀疏,类不平衡。这时候不同向量之间的SMC会因为过多出现的0而没有效果。
那么我们可以只考虑F11,得到:
在这里插入图片描述
这也就是Jaccard距离。

如果把两个向量看作两个集合,0为此元素不存在,1为此元素存在,那么Jaccard距离就是很好地比较两个集合相似性的度量方法。在集合的相似度计算中,Jaccard距离可以写成:
在这里插入图片描述

扩张Jaccard

如果这个时候,还是很稀疏,但是值是非二值的,该怎么办?
一种简单的方法就是用cosine距离:(cosine距离是处理稀疏非二值特征的很好的选择。)
在这里插入图片描述
但是,我们还想以Jaccard距离的思维来做又要如何?如下:
在这里插入图片描述
如果我们的x,y都是二值向量,那么如上公式就会得到Jaccard距离。

分子项,只有两个均非0才会有非0的有用结果,类似于F11,不过这里不是简单的计数,而是用数乘来表示。

分母项,2范数表示大小,也只有非0的项才有贡献,再减去xy即共同的,这个类似

以上是通过观察得出的结论,具体推导不知。

SMC距离在一般的非不平衡二值问题上计算应该比较方便。

Jaccard在文本分类等不平衡二值问题上有所作为

Tanimoto的话,没用过,效果不知道有没有cosine好。应该会得到一个类似cosine的结果。

2.马修斯相关系数(Matthews correlation coefficient)

参考:马修斯相关系数
马修斯相关系数是在使用机器学习作为二进制(2类)的质量的度量的分类,通过布赖恩W.马修斯在1975年由生物化学引入。

它考虑到真和假阳性和假阴性,并且通常是被视为一种平衡的措施,即使这些类别的规模大小不同也可以使用。
MC实质上是观察到的类别和预测的二元分类之间的相关系数; 它返回介于-1和+1之间的值。系数+1表示完美预测,0表示不比随机预测好,-1表示预测和观察之间的完全不一致。统计数据也称为phi系数。MCC与2×2 列联表的卡方统计量相关相关系数_第1张图片
其中n是观察总数。虽然没有完美的方法用一个数字来描述真假阳性和阴性的混淆矩阵,但马修斯相关系数通常被认为是最好的这种测量之一。
当两个类别具有非常不同的大小时,其它度量(例如正确预测的比例(也称为准确性))无用。例如,将每个对象分配给较大的集合可以实现高比例的正确预测,但通常不是有用的分类。可以使用以下公式直接从混淆矩阵计算MCC :
在这里插入图片描述
在这个公式中,TP是真阳性数量,TN的真阴性数量,FP的假阳性数量和FN的假阴性数量。如果分母中的四个和中的任何一个为零,则分母可以任意设置为1; 这导致Matthews相关系数为零,这可以显示为正确的限制值。

马修斯给出的原始公式是:
相关系数_第2张图片
这等于上面给出的公式。
作为相关系数,
马修斯相关系数是问题及其对偶的回归系数的几何平均数。
Matthews相关系数的分量回归系数是Markedness(Δp)和Youden的J统计量(Informedness或Δp’)。
标记和知情对应于不同的信息流方向,并推广了Youden的J统计量, {\ displaystyle \ delta}p统计和(作为它们的几何平均值)马修斯相关系数超过两个类。
一些科学家声称,马修斯相关系数是在混淆矩阵环境中建立二元分类器预测质量的最具信息性的单一分数。

3. 肯德尔相关系数

肯德尔系数
https://www.biaodianfu.com/kendall-rank.html

4. 斯皮尔曼等级相关系数(spearman相关系数)

在 统计学中, 以查尔斯·斯皮尔曼命名的斯皮尔曼等级相关系数,即spearman相关系数。经常用希腊字母ρ表示。 它是衡量两个变量的依赖性的 非参数 指标。 它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为
在这里插入图片描述
原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。如下表所示:
变量Xi 降序位置 等级xi
0.8 5 5
1.2 4
1.2 3
2.3 2 2
18 1 1
实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ.被观测的两个变量的等级的差值,则ρ为

你可能感兴趣的:(机器学习)