拷贝数变异CNV的生物信息学分析(一)

欢迎同行一起交流讨论
微信 forensic_JS
QQ1956238898
(一)CNV介绍
由基因组发生重排而导致的,一般指长度1 kb 以上的基因组片段的拷贝数增加或者减少, 主要表现为亚显微水平的重复或者缺失。因此称为“微”缺失/重复变异。

拷贝数变异模式图二.png

https://www.jianshu.com/p/d5a0fadde763
https://www.jianshu.com/p/0b7a51389da6
(二)CNV测序技术
目前CNV测序主要分基因芯片、全基因组测序、全外显子测序三种,下面主要讲从基因芯片在CNV方面的应用。
一、基因芯片的分类
1、基因芯片按领域分类主要可以分为:
1、基因组研究的SNP和CNV芯片
2、mRNA表达研究的基因表达谱芯片
3、microRNA芯片和LncRNA芯片
4、DNA甲基化芯片
在SNP芯片领域,Illumina公司凭借GoldenGate技术和infinium技术占主要地位。Affymetrix尽管也有SNP芯片,但是仍无法和Illumina公司相比。
基因表达谱芯片领域,Affymetrix公司的芯片最为著名,Agilent和Illumina公司的芯片也很好。
2.Affymetrix公司的芯片技术
Affymetrix公司的基因表达谱芯片是最著名的。
它的表达芯片分为传统的In Vitro Transcription芯片(IVT)和新一代的Whole Transcription 芯片(WT)传统IVT芯片比较经典的是Human U133 , Mouse U430,Rat U230 以及PrimeView&Almac Xcel (价格经济)芯片
新一代WT芯片主要有Human/Rat/Mouse Gene 1.0 ST (基因),Human/Rat/Mouse Exon 1.0 ST(外显子),HTA 2.0

3.Affymetrix基因表达谱芯片技术的原理
https://wenku.baidu.com/view/ba39fb21773231126edb6f1aff00bed5b8f37370.html
这个连接讲的通俗易懂很明白了

4.对Affymetrix的这几种基因表达谱芯片进行比较
新一代WT芯片的优势:
它可以覆盖转录本上更多的区域,实验结果的代表性会更强
它可以针对因为可变剪切所形成的不同转录本,分别设计探针,这样就可以知道不同转录本的表达量的变化了WT芯片可以检测LncRNA
其中,Gene系列 比较基本,满足一般表达量检测需求;Exon系列 全面,精确表达量检测;HTA2 最佳,最全&最精确表达量;EG1.0 最佳,唯一能够获得转录本表达量

5.Affymetrix芯片数据的处理方法
我们通过芯片实验获取数据需要两个步骤:
第一步由扫描设备对芯片进行扫描,得到荧光信号图像文件(DAT文件)
第二步由系统自带的图形处理软件进行一系列图形处理与识别,从芯片图像中提取数据,得到CEL文件
几个概念
探针组(probe set):来自于同一个基因的探针对的集合。一个基因通常由11对或20对探针组成。
CEL文件:存储每个探针的信号值和定位信息的文件。
CDF文件:基因芯片探针排布的信息(哪个探针来自哪个探针组)
Probe文件:提供探针的序列信息
Affymetrix芯片原始数据最常用格式为CEL格式,这是我们处理芯片数据的出发点。因为Affymetrix公司的芯片分为传统的IVT芯片和新一代的WT芯片,所以针对这两种芯片平台产生的数据,我们需要用不同的R包来进行读取。旧版芯片用affy包读取CEL文件数据,新版芯片用oligo包读取CEL文件数据。
读取和数据预处理方式参考:http://www.bio-info-trainee.com/1586.html ; http://www.bio-info-trainee.com/1580.html ; https://www.jianshu.com/p/fb4217512ec0

二、Affymetrix SNP 6.0 芯片介绍
Affymetrix公司主要推出了500k、SNP 5.0、SNP 6.0芯片
Affymetrix Genome-Wide Human SNP Array 6.0是唯一可以真正将CNP(拷贝数多态性)转化成高分辨率的参考图谱的平台。主要应用领域包括全基因组SNP分型、全基因组CNV分型、全基因组关联分析、全基因组连锁分析。除了进行基因分型外,还为拷贝数研究和LOH研究提供帮助,从而能够进行:UPD检测、亲子鉴定、异常的亲代起源分析(针对UPD和缺失)、纯合性分析、血缘关系鉴定。链接:https://www.biomart.cn/specials/cnv2014/article/84169

三、拷贝数变异数据分析软件
分析软件的选择可以参考这篇文献《Software comparison for evaluating genomic copy number variation for Affymetrix 6.0 SNP array platform》这篇文献最后推荐使用PennCNV作为call CNV的最优软件。大致流程就是:
(1)Affymetrix Power Tools 处理CEL文件,包括质量均一化、信号汇总、基因型提取
(2)上一步生成的信号强度文件(信号文件和置信文件)使用PennCNV包分析
(3)上一步得到了LRR和BAF文件

CNV(copy number variant):是一种结构遗传变异,主要是由于重复,缺失,插入和不平衡易位事件。
CNV形成的几种机制:1、减数分裂重组 meiotic recombination;2、双链断裂的同源定向和非同源修复 homology-directed and nonhomologous repair of double-strand breaks;3、复制错误 errors in replication
CNP(Copy Number Polymorphisms):拷贝数多态性是在人群中超过1%存在的常见的CNV,而在不到1%的人群中发现的CNV被认为是罕见的。
估计CNV方法:
1、比较基因组杂交 Comparative genomic hybridization (CGH)
CGH基于不同荧光标记测试的竞争性原位杂交和与正常的人类中期染色体有关的参考DNA。沿染色体长测量的荧光强度比与实验和reference中相应DNA序列的拷贝数之比大约成比例。 低分辨率,只有5-10Mb
2、阵列CGH
Bacterial artificial chromosome (BAC) clone 细菌人工染色体克隆文库:是含有某种生物体全部基因的随机片段的重组DNA克隆群体,是进行全基因组测序、构建物理图谱、染色体筛查、基因筛选及基因图位克隆的基础。 phage artificial chromosome (PAC) clone 噬菌体人工染色体克隆
3、 高密度寡核苷酸微阵列 high-density oligonucleotide microarrays
通过单个DNA样本的杂交进行 信噪比 signal-to-noise ratio:使用限制性内切酶处理DNA样品成短片段,连接接头,使用通用的引物序列进行PCR扩增,经荧光标记后与芯片杂交。信号强度可确定基因型并估计拷贝数。

CNV的检测
使用高密度寡核苷酸微阵列方法检测CNV的一个主要在于能确定给出CNV的断点breakpoint。
基因组变异检测算法 --->R包
step1、稀疏贝叶斯学习模型( sparse Bayesian learning (SBL) model):确定给定CNV最有可能的候选断点
step2、反向消除(backward elimination (BE)):可连续删除最小显著的断点,允许修改错误发现率False Discovery Rate(FDR)
  PennCNV算法使用隐马尔可夫模型hidden Markov model (HMM),是基于使用每个探针的总信号强度和等位基因强度比、相邻SNP之间的距离、SNP的等位基因频率、可用的谱系信息的方法。

四、Affymetrix power tool工具和PennCNV的下载和安装
一、APT的下载和安装
首先需要下载好Affymetrix power tool工具和PennCNV这两个软件,APT的下载最好有二进制文件(源码需要编译安装,比较麻烦)。PennCNV在Github里面有详细的下载步骤和WG-LAB的网站也有详细的使用说明,可自行检索。
下载地址:http://www.affymetrix.com/support/developer/powertools/apt_archive.affx,此处下载的是源码文件,放在Linux服务器的 ~/zjs/software路径下。
下载的APT说明文档在:[https://www.affymetrix.com/support/developer/powertools/changelog/index.html#:~:text=The%20Analysis%20Power%20Tools%20%28APT%29%20is%20a%20collection,also%20refers%20to%20the%20underlying%20C%2B%2B%20source%20code]
从二进制文件进行安装
======================================
LINUX/OS X:
添加文件中bin到环境变量中
例:export PATH=apt-1.16.0/bin:$PATH
======================================
二、PennCNV的下载和安装 (以及遇到错误排查方案)
以下内容是在各种操作系统上安装PennCNV的说明。PennCNV是用Perl和C语言混合编写的;因此建议重新编译源代码(除非您使用的是Windows,为此我预先为不同版本的Perl打包了许多dll文件)。事实上,用户报告的许多问题都可以简单地通过重新编译源代码来解决!

========Linux system=======

If using Linux/Unix system, we can run the wget command to download the program files in a local directory:

wget https://github.com/WGLab/PennCNV/archive/v1.0.5.tar.gz

Then we uncompress the downloaded file by the tar command, which automatically generate the penncnv/ directory containing executables and library files:

tar xvfz v1.0.5.tar.gz

We will see the new directory, enter this directory, and we will see several Perl programs (file name in the *.pl format), as well as a kext/, lib/, docs/ and example/ subdirectory.

Next, 进入到 kext/这个路径, 可根据需要改变 Makefile, 文件
然后输入 make. 如果没有报错,就说明安装成功了!!!

If you see an error message such as "khmm_wrap.c: In functionSWIG_AsCharPtrAndSize: /opt/perl/lib/5.26.0/x86_64-linux-thread-multi/CORE/handy.h:111:34: error: bool undeclared (first use in this function)", then just do a sed -i -e '/#undef bool/d' khmm_wrap.c to remove this statement.
If you see an error message such as "/usr/bin/ld: /opt/perl/lib/5.26.0/x86_64-linux-thread-multi/CORE/libperl.a(op.o): relocation R_X86_64_32S against PL_opargs can not be used when making a shared object; recompile with -fPIC", the best solution is just to install a new Perl such as 5.14.2, as explained below in "compilation from source" section. My guess is that the libperl.a itself is not compiled with -fPIC so there is really just no other way except to install another perl yourself (you can either do it manually as I illustrated below, or use perlbrew).
Now try to run the detect_cnv.pl program:

[kai@adenine]$ ./detect_cnv.pl

It will show the program usage information, indicating the successful installation of the program. If an error message like bad interpreter: No such file or directory is shown, it indicates that Perl is installed in a different directory: try running perl ./detect_cnv.pl instead.
If other types of error message are issued (such as floating point exception), we need to compile the program, see the compilation section below.

附加说明:如果您在操作系统中安装PennCNV有问题,可能是由于在某些系统中与最新版本的Perl 5.14/5.18不兼容。要解决这个问题,可以使用perlbrew安装低版本的Perl,并在其上运行PennCNV,而无需重新编译。Perlbrew默认安装为非线程和非多perl版本。你可能想使用“perlbrew install perl-[insert version here]——thread——multi”。请参阅本页末尾的更多说明。

ADDITIONAL NOTES: If you have problem installing PennCNV in your operating system, it is perhaps due to incompatibility with the latest version of Perl 5.14/5.18 in some systems. To solve this issue, you can use perlbrew to install a lower version of Perl and run PennCNV on top of that without re-compilation. Perlbrew defaults the installation to non-threaded and non-multi perl versions. You may want to use "perlbrew install perl-[insert version here] --thread --multi". See more instructions at the end of this page.

国内外学者提供的文件和程序
研究者可以使用PennCNV软件中包含的 compile_pfb.pl perl脚本为他们的自定义的研究数组生成PFB文件。具体使用参考这个脚本
下面是国内外学者针对不同的测序平台、不同的芯片生成的自己的PFB文件,提供给大家参考:

  • The hc12v1.hg18.pfb.gz and hc12v1.hg18.gcmodel.gz file are provided for HumanCytoSNP12 V1 array with 300K markers on that array specifically (based on Caucasian populations).

  • The ho1v1.hg18.pfb.gz and ho1v1.hg18.gcmodel.gz files are provided for HumanOmni1 QuadV1 array specifically (based on Caucasian populations).

  • Updated 2011Apr25: A user (Denise Kay) submitted an updated ho1v1.hg18.pfb.gz file in which 32,290 markers have modified PFB=2; these are originally designed as SNP markers by Illumina but their quality is too low so it is best to treat them as intensity-only markers by flagging PFB=2.

  • Updated 2011Mar18: Dr. Luis M. Franco from Baylor College of Medicine provided PFB file for the Illumina OmniExpress array compiled from 96 unrelated Caucasian individuals. The number of SNPs in the files current form is 703,965 ( pseudoautosomal and Y-chromosome SNPs are excluded).

  • Updated 2011Aug16: Dr. Colm O'Dushlaine lifted over the PFB file for Illumina OmniExpress array to hg19 coordinate.

  • Updated 2013Nov06: Dr. Lijian Yu from Harvard University provided Affymetrix PFB files in hg19 coordinate, using version na33 annotations from Affymetrix. Fie updated on 2014Jul23 to fix white space problem in the file.

  • Updated 2014Sep13: Stephen Sanders from UCSF provided PFB file for Illumina Omni 5 array, generated from 600 controls from the Simon Simplex Collection.

  • Updated 2015Jun26: Stephen Atkinson from Imperial College London provided PFB file for Illumina HumanCoreExome_v12-A beadchip, and an HMM file for this chip constrcuted by Szatkiewicz et al.

下面是国内外学者提供给我们的他们自己开发的脚本,帮助我们更好的开展研究:

  • User contributed programs (Uploaded 2010Dec01): The penncnv_to_plink.pl program can be used to convert PennCNV output into PLINK input format. Run it with -h argument to read the documentation. The program is written and provided by Matthew Gillman at the Wellcome Trust Sanger Institute.

  • User contributed programs (Uploaded 2011Feb27): The plot_raw_PennCNV.R program can plot from PennCNV rawcnv file on screen or to a high solution png file. Example screen shot 1, 2, 3 and 4. This program is written band provided by Dr. Bowang Chen. See updated script below.

  • User contributed programs (Uploaded 2012Jul16): The plot_raw_PennCNV2PDF.R program can plot from PennCNV rawcnv file to a high solution PDF file. This new script exports all plots to a pdf file, by default 70 samples/page (can be changed by users). It is much fast now, it plots a 50000+ line raw file to a 400+ page pdf in ~2 minutes. Example output is here. Example command line is "R CMD BATCH --no-save --no-restore "--args filename="PDFname"" $path_R/plot_raw_PennCNV2PDF.R ". This program is written band provided by Dr. Bowang Chen@German Cancer Research Center.

PennCNV示例数据集 (这里不列出,因为我本人的研究是Affymetrix gw 6.0 芯片,与实例不一样这里不进行展开)

PennCNV-Affy指导说明

这个包包含PennCNV-Affy指导说明和助手脚本,用于处理Affymetrix Mapping 500K,全基因组5.0和全基因组6.0数据作为原始CEL文件。有关如何使用PennCNV-Affy软件包的说明,请参阅页面左侧菜单栏中的PennCNV-Affy链接。下面的包是在2009年8月27日更新的,只修复了非常小的错误。它应该产生与以前版本相同的结果。
PennCNV-Affy软件包的下载地址为:gw6.tar.gz包 http://www.openbioinformatics.org/penncnv/download/gw6.tar.gz
如何使用PennCNV-Affy软件包的说明,请参阅页面左侧菜单栏中的PennCNV-Affy链接:http://penncnv.openbioinformatics.org/en/latest/user-guide/affy/

你可能感兴趣的:(拷贝数变异CNV的生物信息学分析(一))