每周分享-2018-46

技术


1,confusion matrix,FWER, FDR, BH-FDR, pFDR

http://www.gs.washington.edu/academics/courses/akey/56008/lecture/lecture10.pdf

控制Type I Error有不同的方法。

FWER,family wise error rate,要控制的是:P(V>=1)

1) single step correction: Bonferroni. 比如,在0.05的type I error控制下,做10000次检验,那么需要在p-value 0.05/1000=5e10-6的情况下,才能declare significance。

2) sequential correction:Holm's Method.

由于FWER guard against ANY false positives,而我们在实际基因组分析中是可以忍受一定的false positive的,因此就有了false discovery rate FDR。

2,SAM

SAM,全称Significance analysis of microarrays (SAM),它产生于DNA microarray时期(Tusher, Virginia Goss, Robert Tibshirani, and Gilbert Chu. "Significance analysis of microarrays applied to the ionizing radiation response." Proceedings of the National Academy of Sciences 98.9 (2001): 5116-5121.),作为一种构建统计量和控制多重检验中FDR(false discover rate)的方法,被用在后续RNA-seq分析中。

比如下面这个实验设计:

组A和组B中有哪些差异表达基因呢?

可以依据下述步骤来构建:

1)对于每个基因,计算d统计量(t统计量的变形)

https://en.wikipedia.org/wiki/Significance_analysis_of_microarrays


2)按照d统计量的值从小到大排列所有基因。

3)进行sample shuffling

对于shuffling后的sample同样对每个基因计算d,从小到大排序。

4)重复step2)-3)1000遍。这个时候,每个基因都有了1000个模拟产生的d值,取这1000个d值的平均值作为这个基因的expected d value。

5)画出observed d value 和 expected d value。

6)计算FDR。上图的虚线表示了call significant gene的阈值控制,称之为delta。那么对于每一次permutation data,用同样的delta找significant genes。这1000次模拟得到1000个significant genes的数值,那么取这个数值的中位数,假设为V。那么FDR=V/R,R是observation data中call significant gene的数目。

3,deconvolution

在bulk RNA-seq中比较两个sample的差异表达基因,需要考虑两个sample的cell type是否是一致的。比如下图中,橙色和蓝色代表两批样本(可能是两种genotype,两种实验条件等),同样的三个橙色or三个蓝色代表三个重复。如果不控制cell type frequency,那么找到的差异表达基因很可能是假阳性。用Deconvolution的方法,则可以在同一种cell type内部,进行样本之间的比较,圆形cell type内部比,零星cell type内部比,六边形cell type内部比。

如何deconvolution呢?

可以用regression的方法来做。

Y = WX+error

Y:nxp,n是sample数目,p是基因数目。

W:nxk,n是sample数目,k是cell type种类。W里面代表各个sample中K个cell type的proportion分布是怎么样的。

X:kxp,k是cell type种类,p是基因。是需要估计的矩阵。

在上述模型中,估计X矩阵中的各个元素,就得到了各个sample在cell type中的表达量。

在两种实验条件下,可以用SAM进行差异表达基因检测。

图来源:Shen-Orr, Shai S., et al. "Cell type–specific gene expression differences in complex tissues." Nature methods 7.4 (2010): 287.

4,两种scRNA-seq imputation的方法流派

scRNA-seq中最大的问题之一就是许多gene在许多cell中的read count为0,可能是有表达量但是测序没测到,也可能是真的表达量为0. 有许多方法来impute这些为0的表达量,最近的两个方法分别是SAVER(Huang, Mo, et al. "SAVER: gene expression recovery for single-cell RNA sequencing." Nature Methods 15.7 (2018): 539.)和VIPER(Chen, Mengjie, and Xiang Zhou. "VIPER: variability-preserving imputation for accurate gene expression recovery in single-cell RNA sequencing studies." Genome Biology 19.1 (2018): 196.)

如果数据是pxn,p是基因,n是cell。那么saver impute基因,用的是列信息,就是一个cell里面其他基因的read count信息,而viper用的信息是行信息,用的是这个基因在其他cell中的表达信息。


后记:这周的不少内容都是和multiple testing相关的,一方面是因为手上一批gwas的数据亟需解决这个multiple testing的问题,另一方面对FDR等概念一直以来都在学习、理解。留了几个尾巴:KNN方法imputation,提取重要变量的方法a lasso/elastic net-based pre-selection step。

视频


1,锵锵行天下

这期窦文涛拉着嘉宾真真走出了演播室,前几期在土耳其,现在走到了希腊。我是被土耳其最后一站和希腊第一站吸引起来看节目的。土耳其最后一站,去了圣索菲亚大教堂,有趣的历史,宗教信仰的冲突,希腊第一站不单单是旖旎的风光,也有哲学的探讨,现实的难民问题。问题谈的并不深,但是作为旅行闲聊也已足够。跟美国朋友聊天,美国朋友说,日常聊天中有三大主题是“不能碰”的,不方便聊的:宗教信仰、党派政治、sex。在中东这样一块历史复杂、信仰冲撞、权利博弈的地方,我似乎体会到了一点点。

2,柴知道

作为短视频快知识的自媒体之一,柴知道是我蛮喜欢的一个科普vlog。漫画图解知识,涵盖的方面很广,从历史到宗教到读书到政治到科学技术,应有尽有。一期3到5分钟,看起来也轻松,零碎的时间就够刷几期。

3,伊朗裔脱口秀

也许是最近真的对文化宗教历史问题比较感兴趣,看Maz Jobrani的talk show看得我哈哈乐。

https://www.ted.com/talks/maz_jobrani_make_jokes_not_bombs?language=en

https://www.ted.com/talks/maz_jobrani_a_saudi_an_indian_and_an_iranian_walk_into_a_qatari_bar?language=en

在TED上的两个talk都很赞!

4,the haunting of hill house

Netflix新剧,第一季10集。恐怖版的This is us。在继续追剧中,每天只有中午敢看。。。晚上只能看欢乐的剧。剧集设定拍摄都超级赞!!编剧前面挖了好些坑,希望第一季填坑成功。

阅读


1,刺杀骑士团长

一直在读,似乎总是翻不完。。。

你可能感兴趣的:(每周分享-2018-46)