独立性分析——Projection correlation between two random vectors

致谢:Thanks to my wife!感谢智慧与美貌并存的(某人要求必须加)老婆举办的论文研讨班,让我看懂了一篇篇最新的统计理论论文,激发了我的兴趣及研究热情~

我从2016年开始关注随机向量/变量的相关性/独立性分析。起初,对Fosdick et al.[2]使用Wilks’ lambda统计量分析网络邻接矩阵低维隐含因子与节点属性间依赖性的方法很感兴趣,但该方法假设隐含因子与节点属性均服从正态分布,而且只能分析相关性。2017年秋天,听了首师大崔恒健老师报告,他们基于前序工作[3]提出了Mean Variance Test,可分析一个连续型随机变量与一个离散型随机变量间的独立性,不需要分布假定,而且计算复杂度很低。如崔老师所说,该方法“又要马儿跑得快,又要马儿不吃草”,^_^。

当然,仍有继续研究的空间。例如, 如何分析连续型随机变量间的独立性?(可将其中一个连续型变量离散化,但这并不是个好策略)如何分析随机向量间的独立性?(分析高维SNP与多个疾病表型间的独立性)这就是 “Projection correlation between two random vectors”[1]的工作。该文是发表在统计领域四大顶级期刊之一的Biometrika,作者是Li-ping Zhu领衔的几位大牛。该文确实有很多巧妙之处,例如将独立性分析转化为协方差分析(线性相关性分析),但计算复杂度不低(貌似是 O(n5) O ( n 5 ) )。

首先,总结下分布函数、期望等特征、事件的概率之间的关联,这在论文中常见,而课堂上通常没听过。如下图所示,即使不确定随机变量是连续型还是离散型,也可利用分布表示期望、事件的概率等。
独立性分析——Projection correlation between two random vectors_第1张图片
利用上述定义,即可将两随机向量间独立性分析转化为相关性分析——协方差分析。具体过程,如下图所示。
独立性分析——Projection correlation between two random vectors_第2张图片

判断随机向量X和Y是否独立等价于判断(1)式是否成立。
独立性分析——Projection correlation between two random vectors_第3张图片
独立性分析——Projection correlation between two random vectors_第4张图片
下面需要利用引理对(2)式进行化简。
独立性分析——Projection correlation between two random vectors_第5张图片
独立性分析——Projection correlation between two random vectors_第6张图片
独立性分析——Projection correlation between two random vectors_第7张图片
最后,给出Pcov的两种估计方法。如下所示,Pcov的估计方法需要遍历五次样本,计算复杂度为 O(n5) O ( n 5 ) 。得到Pcov的估计后,可采用随机置换的方式计算p-value。
独立性分析——Projection correlation between two random vectors_第8张图片
参考文献
[1] Liping Zhu et al. Projection correlation between random vectors.Biometrika. 104(4): 829-843. 2017.
[2] Fosdick B K, Hoff P D. Testing and modeling dependencies between a network and nodal attributes[J].Journal of the American Statistical Association, 2015, 110(511): 1047-1056.
[3] Cui H, Li R, Zhong W. Model-free feature screening for ultrahigh dimensional discriminant analysis[J].Journal of the American Statistical Association, 2015, 110(510): 630-641.

你可能感兴趣的:(统计理论)