GEO数据库挖掘(2)

一、统计学相关知识

首推参考推文:https://mp.weixin.qq.com/s/OtB2h6f00U2SRZLzveJKfQ

数据整理的一般描述

1、关于百分位数的理解,指的是一个位置而不是一个具体的数值

Eg1:
百分位通常用第几百分位来表示,如第五百分位,它表示在所有测量数据中,测量值的累计频次达5%。以身高为例,身高分布的第五百分位表示有5%的人的身高小于此测量值,95%的身高大于此测量值。

Eg:2
第25百分位数又称第一个四分位数(First Quartile),用Q1表示;第50百分位数又称第二个四分位数(Second Quartile),用Q2表示;第75百分位数又称第三个四分位数(Third Quartile),用Q3表示。若求得第p百分位数为小数,可完整为整数。

分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置。百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数,严格的定义如下:第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。

Eg3:
高等院校的入学考试成绩经常以百分位数的形式报告。比如,假设某个考生在入学考试中的语文部分的原始分数为54分。相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道。但是如果原始分数54分恰好对应的是第70百分位数,我们就能知道大约70%的学生的考分比他低,而约30%的学生考分比他高。
来个图理解下:

image

①我们一定要清楚,百分位数指的是位置,在R中我们会用到fivnum()函数,这个函数里面的25%,50%,75%(即上四分位数、中位数、下四分位数)指的就是位置!!! 你以为的数值那是均值,不是中位数,OK!
②应用百分位数的意义:在统计学中,统计分为描述统计以及推论统计。描述统计中你会想到用均值去评估整体,如果一组数据的整体大体都是很平均的,那么OK。如果一组数据中出现了极值,那么均值就不科学了。选择百分位数或者说在R中我们做箱图(利用的就是五分位数)是更为科学的去观察整理的数据情况,做到对数据心中有数,比如有没有极端值等等这样的问题。

2、四分位数
如图,要明确max、上四分位数、中位数、下四分位数、min以及四分位距(箱体的高)

image

3、数据离散程度的描述
变异、离均差、离均差平方和、总体方差、样本方差、标准差、样本标准差

两个重要的概念:FC,logFC,P值

1、FC
A、FC为差异表达基因上调倍数,然后取log,logFC一般表达相差2倍以上是有意义的,放宽要求1.5倍或者1.2倍也是可以接受的
B、关于limma包差异分析结果的logFC解释见:http://www.bio-info-trainee.com/1209.html

2、P值
请先参考:https://www.jianshu.com/p/4c9b49878f3d
A、几个分界线:
P < 0.05 为有统计学差异, P<0.01 为有显著统计学差异,P<0.001为有极其显著的统计学差异 。【P值越小,表明结果越显著。】
B、意义:
①P的意义不表示两组差别的大小,P反映两组差别有无统计学意义,并不表示差别大小。
②显著性检验只是统计结论。判断差别还要根据专业知识。抽样所得的样本,其统计量会与总体参数有所不同,这可能是由于两种原因。

二、PCA图

①降维
降维,通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维。寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量。
②PCA图输入的文件类型为数值型
③有关PCA
如果你对PCA的数学统计学知识想有更多的理解,请看:
https://blog.csdn.net/a8039974/article/details/81285238
https://blog.csdn.net/qq_24753293/article/details/80435463

研究一维数据,用方差、标准差
研究二维数据,用协方差
研究多维数据,用协方差矩阵>

对于初学者的我来讲,我通俗易懂的讲讲对于PCA的理解:
PCA的意义
①处理大数据游刃有余:当我们拿到一个很小的数据是,可能你通过肉眼就可以看出来什么因素是决定这个数据发生了质的飞跃,实现了数据的类群差异(也就是我们PCA中提到的主成分)。比如:划分成绩好和成绩差之间的差别 ,因素会有很多。但是通过数据反馈我们发现影响其差别的主要因素是的是学习成绩、学习能力,其余的比如环境等等还会有很多的因素,而这些就对于类群差异就不重要了 。那么,换言之,根据成绩、学习能力我们就可以把学生分成成绩好和成绩差两个类群。刚刚所提到的影响其类群的主要因素是成绩、学习能力,那么这两个因素也就是dim1、dim2。OK,刚刚是简单说的数据很小的情况,那么数据很大的时候怎么办?怎么划分呢?这就是我们需要主成分分析了。当数据很大的时候,我们选择降维,也就是用到了PCA
②检查数据是否存在差异:我们拿到一个数据就是自然是为了研究差异所在,所以对于拿到数据能否有可行性的操作就要用到PCA、热图去检查数据。

image

分析:
根据我们对于数据的理解,作出了这个PCA图。
①关于其中的Dim1,Dim2在作图的过程中有提到,他的因素是什么。Dim后面跟的百分数是这个因素决定Groups之间差异的概率,也就是说,Dim1使得Groups之间发生差异的概率为62.7%,Dim2使得Groups之间发生差异的概率为14.8%。
②Dim1不仅仅只限制一个因素,而是好几个因素杂交在一起,所以多项思考Dim
③Groups的不同用了不同的颜色进行表示,可以发现 两个颜色之间的距离是很远的,说明两组之间的差异很大,研究有意义;如果在PCA图中显示两者的点有重合的现象,说明Groups之间有重合,差异小,那么我们需要审视该数据的研究价值。
④注意,PCA图表示的是组间的差异,而不是组内的差异!

三、火山图

注意安全 ,要先喷个图:

image

【注意】不是所有的logFC都是以2为底,只有利用limma时是以2为底的。若选择其他的包不是以2为底。

①该图中每一个小点代表一个基因
②黑色部分表示stable基因,红橙色部分代表down基因,蓝色部分代表up基因。
③判断up基因还是down基因是因为横坐标是log2FC,负值为down基因,正值为up基因。
④stable基因与down基因,以及stable基因与up基因之间的分界线是log2FC.就拿这张图来来说发现差异基因很多,我们可以利用R 看到up和down的个数。如果差异基因太多 ,后续进行GO以及KEGG分析的时候也会特别多,显示具体的通路就那么清晰了。so,如果想缩小差异基因的个数,可以调整log2FC的数值,比如log2FC=2

四 热图

说明:
①热图的输入文件类型为表达矩阵
②一般情况下,在一个表达矩阵中行表示基因名称,列表示样本名称;
③需要对表达矩阵做一系列的处理,比如关联,以及ID转换等
④当heatmap不清楚如何做,或者输入的数据不知道是怎样的时候,查看示例数据,找到示例数据的数据结构等,从而使我们的数据进行不断的处理。
⑤对热图的归一化,一般是要处理的。当对热图进行了归一化处理,我们就会避免因较大的基因数据而掩盖了比较小的数据,有碍我们观察差异现象。

image

解释:
①heatmap图中六列分别代表了不同的样本,即六个GSM号
②heatmap图中横坐标表示一个基因在不同样本中的表达情况
③渐变色条表示基因表达量
④heatmap图中分出了两个组类

五、箱图

image

解释:
①每一个箱子代表一组数据的五分位数情况
②单看一个箱子代表一组数据的五分位数情况,如果箱体越扁,说明max与min的差异越小,代表组内的重复率越高
③一起看两个箱子,可以比较两组数据的五分位数,这样就可以发现两者之间的差异情况。如果两个数据的箱图五分位数差别很大,说明组间的差异很大,科研有价值。
很显然,这个图表示组间差异很大。

你可能感兴趣的:(GEO数据库挖掘(2))