一点关于centered log-ratio transformation的思考
- centered log-ratio transformation(clr)
-
- clr转换的基本概念
- 如何分析这个数据的结果
- 注意事项
centered log-ratio transformation(clr)
这是本的第 2 篇文稿。
最近在看用XRF数据进行土壤/岩石样品的元素分析。我同事对数据进行centered log-ratio transformation。蠢笨如我看了好几天,也没太搞懂,为什么要进行转换。以及转换后,如何看这个数据。
下面是几点简单的体会把。
clr转换的基本概念
- 首先明白一个概念,compositional data (根据维基百科的定义:指在统计学中,组成数据是对某些整体的各个部分的定量描述,传达了相关信息。在数学上,组成数据由单形上的点表示。涉及概率,比例,百分数和ppm的测量都可以被认为是成分数据。mg·kg-1, ppm, %)
- clr就是要对compositional data的各个元素进行转换。
c l r ( x ) = [ l n x 1 g ( x ) ; … ; l n x D g ( x ) ] clr(x) = [ln \frac{x_ {1}}{g(x)};…; ln \frac{x_ {D}}{g(x)}] clr(x)=[lng(x)x1;…;lng(x)xD]
其中,g(x)表示几何平均值。
g ( x ) = x 1 … x D n g(x) = \sqrt[n]{x_ {1}… x_ {D}} g(x)=nx1…xD
- 其在R语言中的代码也非常简单
clr()
如何分析这个数据的结果
不知道理解得对不对,不过应该的意思是:
- 变换后的结果,相加应该为0
- 正的值表示相对较大的值,负的值表示相对较小的值
- 正的越多,表示该值越大
注意事项
如果有些原始数据本身就为0,那这个转换就没有意义。所以就要想办法去掉这组数据,或者赋值给这个为0的地方。
- 去掉的话,可能会失去很多数据。
- 赋值有两种方式:
2.1 有人建议直接赋一个很小的值,比如0.0000000001
2.2 重采样一个小的值,这个当时我同事讲的时候,我也没理解是什么意思。等有机会在仔细问问看。欢迎有盆友告诉我。