Statistical Correlation理解

工科数学没学好,对于图像处理中常用的Correlation理解都特别费劲,长叹一声。。。
本文介绍下对Correlation的理解。


1. 定义

敲黑板,重点:
Correlation是一项统计技术,用于说明2组变量间的相关性(强/弱)
举例来说:考虑家庭收入与支出,直观的印象是收入高了,则支出相应的提高,相反也如此。因此,可以说收入与支出之间存在相关性,即改变其中一个变量,则另一个变量也会出现变化。
另一个例子:商品价格与需求之间,价格上升则需求下降,反之亦如此。
定义如下:
如果一个变量的改变伴随着另一个变量的改变,则说这2个变量之间存在相关性

2. 关系(Relationship)

Correlation用于说明变量之间的关系:

  1. 关系的正负(Positive/Negative)
  2. 关系的强弱
    上面的例子中,家庭收入与支出之间属于正相关,价格与需求之前属于负相关。

3. 系数(Coefficient of Correlation)

Statistical Correlation使用相关性系数(r)来衡量。r的取值范围为+1.0 ~ -1.0,r给出了关系的强弱。
通常,r > 0表示正相关,r < 0表示负相关,r = 0表示无关(有用!)。r = 1.0表示完全的正相关,r = -1.0表示完全的负相关。越接近1.0/-1.0,则相关性越强。
从经验上讲,相关性强弱可以大体划分为如下范围:

范围 相关性
-1.0 ~ -0.5 / 0.5 ~ 1.0
-0.5 ~ -0.3 / 0.3 ~ 0.5
-0.3 ~ -0.1 / 0.1 ~ 0.3
-0.1 ~ 0.1 极弱或无

但相关性对于的可计量数据来说有意义(压力、温度等),对于分类数据如性别、喜好等无用处。

4. 缺点(Disadvantages)

使用r表示相关性时,需要注意以下几点:
1. r通常用于线性关系(Linear Relationship)中,对于相关性非常强的非线性关系的2组变量中,很可能出来r值为接近或为0的情况,这时使用r是不合适的;
2. 对于r值的解释要格外注意。例如计算鞋的大小与人的智商之间的关系,是没有意义的;
3. 对于因果关系,采用r值说明也是没有意义的。如采用r表示X与Y之间存在关系,但无法说明X影响Y还是Y影响X。

你可能感兴趣的:(cv)