2021/03/10
Bioinformatics for Copy Number Variation Data
CNV(copy number variant):是一种结构遗传变异,主要是由于重复,缺失,插入和不平衡易位事件。
CNV形成的几种机制:
1、减数分裂重组 meiotic recombination
2、双链断裂的同源定向和非同源修复 homology-directed and nonhomologous repair of double-strand breaks
3、复制错误 errors in replication
CNP(Copy Number Polymorphisms):拷贝数多态性是在人群中超过1%存在的常见的CNV,而在不到1%的人群中发现的CNV被认为是罕见的。
数据库:
Database of Genomic Variants (DGV):从档案SV数据库dbVar(NCBI)和DGVa(EBI)的入选数据集中选择DGV中包含的研究,然后对其准确性和有效性进行进一步的整理。关于结构变异,不限于CNV
variantaccession、chr、start、end、varianttype、variantsubtype、reference pubmedid、method、platform、mergedvariants、supportingvariants、mergedorsample、frequency、samplesize、observedgains、observedlosses、cohortdescription、genes、samples
CNV的功能影响
1、细胞表型 如基因表达
2、人类疾病的遗传基础
inherited diseases、complex diseases 和 cancer
例:neuroblastoma breakpoint family (NBPF) gene 神经母细胞瘤断裂点家族(NBPF)基因,位于1号染色体上的片段重复区域。
估计CNV方法:
1、比较基因组杂交 Comparative genomic hybridization (CGH)
CGH基于不同荧光标记测试的竞争性原位杂交和与正常的人类中期染色体有关的参考DNA。
沿染色体长测量的荧光强度比
与实验和reference中相应DNA序列的拷贝数之比
大约成比例。
低分辨率,只有5-10Mb
2、阵列CGH
Bacterial artificial chromosome (BAC) clone 细菌人工染色体克隆文库:是含有某种生物体全部基因的随机片段的重组DNA克隆群体,是进行全基因组测序、构建物理图谱、染色体筛查、基因筛选及基因图位克隆的基础。
phage artificial chromosome (PAC) clone 噬菌体人工染色体克隆
3、 高密度寡核苷酸微阵列 high-density oligonucleotide microarrays
通过单个DNA样本的杂交进行
信噪比 signal-to-noise ratio:使用限制性内切酶处理DNA样品成短片段,连接接头,使用通用的引物序列进行PCR扩增,经荧光标记后与芯片杂交。
信号强度可确定基因型并估计拷贝数。
CNV的检测
使用高密度寡核苷酸微阵列方法检测CNV的一个主要关注点在于确定给定CNV的断点breakpoint。
基因组变异检测算法 --->R包
segmentation methods
step1、稀疏贝叶斯学习模型( sparse Bayesian learning (SBL) model):确定给定CNV最有可能的候选断点
step2、反向消除(backward elimination (BE)):可连续删除最小显著的断点,允许修改错误发现率False Discovery Rate(FDR)
“PennCNV” is a free software tool for detection of CNVs from Affymetrix and Illumina microarray data sets.
PennCNV算法使用隐马尔可夫模型hidden Markov model (HMM),是基于使用每个探针的总信号强度和等位基因强度比、相邻SNP之间的距离、SNP的等位基因频率、可用的谱系信息的方法。
dChip SNP and CNAG
处理Affymetrix CEL files,检测、可视化具有杂合性缺失( Loss of Heterozygosity (LOH))和拷贝数改变的染色体区域。
实例:
1、样本:NA06991(Affymetrix Genome-Wide Human SNP Array 6.0)
https://ftp.ncbi.nlm.nih.gov/hapmap/raw_data/affy500k/CEU_NA06991_NSP.CEL.bz2
https://ftp.ncbi.nlm.nih.gov/hapmap/raw_data/affy500k/CEU_NA06991_STY.CEL.bz2
https://ftp.ncbi.nlm.nih.gov/hapmap/raw_data/affy100k/CEU_NA06991_HIND.CEL.gz
https://ftp.ncbi.nlm.nih.gov/hapmap/raw_data/affy100k/CEU_NA06991_XBA.CEL.gz
2、 使用Affymetrix Power Tools (APT)命令行软件包apt-copynumber-workflow,对下游 segmentation methods信号强度进行预处理
3、GADA说明拷贝数的分割过程。
3.1、将处理后的array导入到GADA中,并用导入的数据存储对象
3.2、用染色体可视化对数比信号强度
3.3、创建GADA模型
3.4、可视化所分割的结果
3.5、识别位于22号染色体CNV区域的探针
3.6、总结分段 segmentation的结果
3.7、以BED格式导出这些数据,GADA结果也可以使用UCSC基因组浏览器可视化,并与已知的CNV区域进行比较。