如何自己写一个CNV分析软件?

目前,CNV的检测原理主要可以分为五类:第一,基于成对read的PEM方法;第二,基于split read的PE方法;第三,基于read深度的RD方法;第四,基于组装的AS方法;第五,前四种方法的组和;其中,尤以基于RD方法的软件最多,今天主要给大家分享一下基于RD方法开发CNV软件的思路。
https://bmcbioinformatics.biomedcentral.com/track/pdf/10.1186/1471-2105-14-S11-S1.pdf

如何自己写一个CNV分析软件?_第1张图片
无论是WES还是WGS数据,CNV的分析都可以归纳为以下四步:
1、read计数;2、数据去噪;3、统计分析 4、CNV片段化
下面详细介绍一下每一步该怎么做。

1、read计数

CNV分析是一个定量分析,所以通常CNV分析的第一步就是read 计数。对于全基因组数据,可以设置一个窗口大小,比如说500bp或者50kb,跟你的测序深度有关;对于全外显子数据,可以把一个bed区域当成一个窗口,也可以将bed划分成200bp左右的固定区间作为一个窗口,然后统计每个窗口的read数目。以上是read计数的原理,那么我们该怎么写程序去计数那?
方法比较多,这里我以bedtools为例简单介绍一下:
首先第一步,我们做一个窗口为100kb的bed文件,方法如下&

你可能感兴趣的:(如何自己写一个CNV分析软件?)