临床生信实操(centos7)2

寻找trio家系新发突变位点

http://wintervar.wglab.org/错义突变评估网站
突变reads占总reads的比例,看父母结果,辅助判断。
在/home/Documents下新建文件夹denovo2
复制denovo-exercise文件夹中的select.shtrio.vcf至denovo2文件夹下
双击select.sh
内容如下:

  1. 提取儿子的所有位点
    java -Xmx5g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V trio.vcf -sn son -env -o son.vcf
-T SelectVariants 选择变异位点
-V  哪个vcf需要处理
-env  只提取该样本基因型为0/1(杂合突变)
或1/1(纯合突变)的位点 【0/0野生型又称无突变】
  1. 提取除儿子以外的所有位点
    java -Xmx5g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V trio.vcf -xl_sn son -env -o parent.vcf
-xl_sn  提取除了xxx以外的所有样本位点
  1. 只有儿子独有的位点
    java -Xmx5g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V son.vcf --discordance parent.vcf -o denovo.vcf
--discordanc  提取与xxx不同的位点
临床生信实操(centos7)2_第1张图片
临床生信实操(centos7)2_第2张图片

IGV查看比对情况(也可看覆盖情况)

打开 denovo.vcf

打开 /home/Documents/IGV_2.3.44→运行sh -v igv.sh
临床生信实操(centos7)2_第3张图片

GENE :粗的外显子,细的内含子

右上角‘+’号可以放大看到每个外显子上DNA序列


临床生信实操(centos7)2_第4张图片

临床生信实操(centos7)2_第5张图片
临床生信实操(centos7)2_第6张图片
每个长度=每个碱基测序深度,覆盖度深度是每个碱基的测序深度越高越深。
Total count:214 ,这个碱基有214条reads覆盖
C:214,这些reads都是C,

(100%,130+,84 -),这个碱基位置C肯定百分之百C,reads方向+是从左至右;-是从右至左,【杂合子:必须在同一位置上,这个位置上有很多个都是T】
临床生信实操(centos7)2_第7张图片
在某些情况下,两条reads特别近,不需要去验证, reads都是配对测序。【一条reads150bp,如对于一些基因有人的突变,这2个突变离得近,可通过reads直观看到,这2个突变在不在一条染色体上,如在同一染色体上(即同在一条reads上),不需要验证父母。】
临床生信实操(centos7)2_第8张图片
IGV还能直观知道这个基因有几个外显子,有没有被相应的其他区域覆盖到,有时会漏掉。(见下图)
临床生信实操(centos7)2_第9张图片
有时候隐性下发现一个位点,还有另外一个位点不知道情况,是不是有些位点正好覆盖程度很低,测序分析或许漏掉,是否有CNV(看病人,再载入一个正常人的,这个外显子上测序深度,比正常对照正好低一半,正好低一半就是杂合的缺失)

新发突变位点:看上图2中272这个位点,基因组上位置在1号染色体上(chr1)1691835粘贴到IGV里的位置上(看图3)点击GO,2条竖线这个地方,中间地方就是输入的碱基位置,Dad有8%丰度突变,把mum和son再一起载入进来(看图4、5),mum有2条reads突变,son有11%突变,因同源区存在一定比例的突变丰度,所以这个位点不是真正的新发突变,假阳性位点。

临床生信实操(centos7)2_第10张图片

  1. 提取父母及儿子所有独有一致的位点
    java -Xmx5g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V trio.vcf --concordance denovo.vcf -o fam-denovo.vcf
-V trio.vcf --concordance denovo.vcf
在trio.vcf文件中,与denovo一致的位点提取出
--concordance  提取与xxx一致的位点

双击打开 fam-denovo.vcf

临床生信实操(centos7)2_第11张图片
GT:AD:DP:GQ:PL
./. 0/0:3,0:3:6:0,6,85 1/1:0,3:3:6:85,6,0
第一个位点 son 1/1 纯合突变,./. Dad在这个位置没覆盖,mum 3,0

注释

输入以下脚本:
mkdir anno
/home/wei/annovar2/table_annovar.pl fam-denovo.vcf /home/wei/annovar2/humandb/hg19/ -buildver hg19 -out anno/fam-denovo -remove -protocol refGene,genomicSuperDups,phastConsElements46way,esp6500siv2_all,exac03,1000g2014oct_eas,1000g2014oct_all,gnomad_exome,avsnp142,clinvar_20170130,scsnv,revel,mcap,cosmic68wgs,ljb26_all -operation g,r,r,f,f,f,f,f,f,f,f,f,f,f,f -nastring . -vcfinput
运行sh -v select.sh

筛选

打开anno下fam-denovo.hg19_multianno.txt

有323个新发
临床生信实操(centos7)2_第12张图片
临床生信实操(centos7)2_第13张图片
临床生信实操(centos7)2_第14张图片

把”fam-denovo.hg19_multianno.txt”内容全选后
拷到“sheet2”中


临床生信实操(centos7)2_第15张图片
临床生信实操(centos7)2_第16张图片

筛选非同义突变:I列ExonicFunc.refGene
临床生信实操(centos7)2_第17张图片
临床生信实操(centos7)2_第18张图片

筛选可变剪切位点:AM列scsnv
临床生信实操(centos7)2_第19张图片
临床生信实操(centos7)2_第20张图片

一家4口全外显子测序(主要表型:耳聋和视网膜变性)

家系的复合突变(与正常人群比)
路径:Documents→quad
思路:提取弟弟的→再提取姐姐的→找共有位点→基因注释→有哪些基因纯合或者复合杂合位点→看这2个位点到父母里对比验证。

新软件Exomiser(同XYAutoFilter和Phenolyzer)

路径:Documents→quad→test-multisample.yml
脚本内容如下:

## Exomiser Analysis Template for multi-sample VCF files
# These are all the possible options for running exomiser. Use this as a template for
# your own set-up.
analysis:
    vcf: deaf-clean.vcf  #待分析vcf文件 
    ped: deaf.ped     #vcf文件中各样本之间的亲缘关系、性别与患病情况
    proband: son    #vcf文件中先证者是哪个样本
    # AUTOSOMAL_DOMINANT, AUTOSOMAL_RECESSIVE, X_RECESSIVE or UNDEFINED
    modeOfInheritance: AUTOSOMAL_RECESSIVE    #疾病考虑的遗传方式
    #FULL, SPARSE or PASS_ONLY
    analysisMode: SPARSE
    #RAW_SCORE or RANK_BASED
    geneScoreMode: RAW_SCORE
    hpoIds: ['HP:0000510','HP:0000365']   #患者的临床表型
    #Possible frequencySources:
    #Thousand Genomes project http://www.1000genomes.org/
    #   THOUSAND_GENOMES,
    #ESP project http://evs.gs.washington.edu/EVS/
    #   ESP_AFRICAN_AMERICAN, ESP_EUROPEAN_AMERICAN, ESP_ALL,
    #ExAC project http://exac.broadinstitute.org/about
    #   EXAC_AFRICAN_INC_AFRICAN_AMERICAN, EXAC_AMERICAN,
    #   EXAC_SOUTH_ASIAN, EXAC_EAST_ASIAN,
    #   EXAC_FINNISH, EXAC_NON_FINNISH_EUROPEAN,
    #   EXAC_OTHER
    frequencySources: [
        THOUSAND_GENOMES,
        ESP_AFRICAN_AMERICAN, ESP_EUROPEAN_AMERICAN, ESP_ALL,
        EXAC_AFRICAN_INC_AFRICAN_AMERICAN, EXAC_AMERICAN,
        EXAC_SOUTH_ASIAN, EXAC_EAST_ASIAN,
        EXAC_FINNISH, EXAC_NON_FINNISH_EUROPEAN,
        EXAC_OTHER,
        ]

    Possible pathogenicitySources: POLYPHEN, MUTATION_TASTER, SIFT, CADD, REMM
    #*WARNING* if you enable CADD, ensure that you have downloaded and installed the CADD tabix files
    #and updated their location in the application.properties. Exomiser will not run without this.

    pathogenicitySources: [POLYPHEN, MUTATION_TASTER, SIFT]
    #this is the standard exomiser order.
    #all steps are optional
    steps: [
        #intervalFilter: {interval: 'chr10:123256200-123256300'},
        #geneIdFilter: {geneIds: [12345, 34567, 98765]},
        #failedVariantFilter: {},
        qualityFilter: {minQuality: 80.0},  #用于评估位点的最低得分
        variantEffectFilter: {remove: [UPSTREAM_GENE_VARIANT,
            INTERGENIC_VARIANT,
            REGULATORY_REGION_VARIANT,
            CODING_TRANSCRIPT_INTRON_VARIANT,
            NON_CODING_TRANSCRIPT_INTRON_VARIANT,
            SYNONYMOUS_VARIANT,
            DOWNSTREAM_GENE_VARIANT,
            SPLICE_REGION_VARIANT]},
        #knownVariantFilter: {}, #removes variants represented in the database
        frequencyFilter: {maxFrequency: 0.5},    #数据库中最高的人群频率
        pathogenicityFilter: {keepNonPathogenic: false},
        #inheritanceFilter and omimPrioritiser should always run AFTER all other filters have completed
        #they will analyse genes according to the specified modeOfInheritance above- UNDEFINED will not be analysed.
        inheritanceFilter: {},
        #omimPrioritiser isn't mandatory.
        omimPrioritiser: {},
        #priorityScoreFilter: {minPriorityScore: 0.4},
        #Other prioritisers: Only combine omimPrioritiser with one of these.
        #Don't include any if you only want to filter the variants.
        phenixPrioritiser: {},
        # or run hiPhive in benchmarking mode:
        #hiPhivePrioritiser: {runParams: 'mouse'},
        #phivePrioritiser: {}
        #phenixPrioritiser: {}
        #exomeWalkerPrioritiser: {seedGeneIds: [11111, 22222, 33333]}
    ]
outputOptions:
    outputPassVariantsOnly: false
    #numGenes options: 0 = all or specify a limit e.g. 500 for the first 500 results
    numGenes: 50   #最多输出多个候选基因
    #outputPrefix options: specify the path/filename without an extension and this will be added
    # according to the outputFormats option. If unspecified this will default to the following:
    # {exomiserDir}/results/input-vcf-name-exomiser-results.html
    # alternatively, specify a fully qualifed path only. e.g. /users/jules/exomes/analysis
    outputPrefix: deaf-recessive3  #输出的结果名称
    #out-format options: HTML, TSV-GENE, TSV-VARIANT, VCF (default: HTML)
    outputFormats: [HTML]

需要输入以下文件:
deaf-clean.vcf文件里包含4个人的变异信息,
deaf.ped文件 家系信息(编号、父母信息、性别信息、患病信息)

临床生信实操(centos7)2_第21张图片

proband: son 先证者
疾病考虑的遗传方式:AUTOSOMAL_DOMINANT, AUTOSOMAL_RECESSIVE, X_RECESSIVE or UNDEFINED(单人)
hpoIds: ['HP:0000510','HP:0000365'] HP:0000510是感应性耳聋, HP:0000365是视网膜色素变性
qualityFilter: {minQuality: 80.0} 设置变异得分
frequencyFilter: {maxFrequency: 0.5} 人群频率最高是多少,0.5代表千分之5
outputPrefix: deaf-recessive3 输出的结果名称
点击save保存
当前文件夹右击 open in terminal后运行脚本:
运行 sh -v exomiser.sh
打开deaf-recessive3.html
Analysis Settings 参数设置
Filtering Summary里有频率、致病性、遗传模式、
Variant Type 变异位点分布的类型
Prioritised Genes 候选基因排序
临床生信实操(centos7)2_第22张图片

XYAutoFilter也可以筛选复合杂合的隐性的致病位点,只支持一家三口,一家四口的不支持筛选。

Exomiser用于渐冻人 ?

临床表型号: ChinaHpo(http://www.chinahpo.org/)或成都奇恩生物(https://rare.genomcan.cn/#/)


寻找大家系中患者共有的位点而正常人不携带的位点(糖尿病,常见疾病)

思路:提取患者→提取正常人→患者共有位点,但正常人不携带的
路径:Documents→big
Diabetes.vcf 放了所有人的变异信息
打开select.sh
脚本内容如下:

  1. 前8条命令,把患者全都提取出来(交集)
    java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F16 -env -o F16.vcf

java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F18 -env -o F18.vcf

java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F8 -env -o F8.vcf

java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F19 -env -o F19.vcf

java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F2 -env -o F2.vcf

java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F3 -env -o F3.vcf

java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F4 -env -o F4.vcf

java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F7 -env -o F7.vcf

  1. 合并位点
    java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T CombineVariants -V F2.vcf -V F3.vcf -V F4.vcf -V F7.vcf -V F16.vcf -V F18.vcf -V F8.vcf -V F19.vcf --genotypemergeoption UNIQUIFY -minN 8 -o affect.vcf

--genotypemergeoption UNIQUIFY 表示每个样本的名称都是唯一的
-minN 8 表示至少有8个vcf共有的位点
如公司给的散的vcf合在一起的,不需要合并这个参数,直接合并,这个有条件的合并,是合并的共有的位点

3.正常人一次提取(并集)(因为要找患者是共有的,而对于正常人,只要有一个人,都会包括进来)
java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V Diabetes.vcf -sn F14 -sn F12 -sn F22 -sn F5 -sn F20 -env -o unaffect.vcf

  1. 寻找患者共有的并且正常人不携带的
    java -Xmx6g -jar /home/wei/bin/GenomeAnalysisTK.jar -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -T SelectVariants -V affect.vcf --discordance unaffect.vcf -o diabetes-candidate.vcf

注释

mkdir anno
/home/wei/annovar2/table_annovar.pl diabetes-candidate.vcf /home/wei/annovar2/humandb/hg19/ -buildver hg19 -out anno/diabetes-candidate -remove -protocol refGene,genomicSuperDups,phastConsElements46way,esp6500siv2_all,exac03,1000g2014oct_eas,1000g2014oct_all,gnomad_exome,avsnp142,clinvar_20170130,scsnv,revel,mcap,cosmic68wgs,ljb26_all -operation g,r,r,f,f,f,f,f,f,f,f,f,f,f,f -nastring . -vcfinput

打开anno
临床生信实操(centos7)2_第23张图片
临床生信实操(centos7)2_第24张图片
临床生信实操(centos7)2_第25张图片

从点突变分析没有复合差异,从CNV突变分析

思路:计算每个样本每个外显子测序深度/平均测序深度=每个样本每个外显子相对的测序比率,然后根据患病的情况来筛选它缺失区域。
虽说全外显子进行捕获测序时,每个外显子测序深度不同,有些高,有些低,但不同的样本在同一区域,基本上同一种模式,如在1号染色体上,某个基因上外显子比其他外显子要低,那么多样本都会低。这样可以通过测序深度来判断这个外显子是否缺失或重复。【必须相同的数据量进行比较】(不一定要同一批次,要同一公司,同一平台)

先计算每个外显子测序深度/每个样本自己的测序深度得到相对比率,多做一步归一化(每个外显子它的值不同,如有10个样本,其中有一个样本,用这个值/其他9个样本的平均值得到一个归化值,如果没缺失,它就是1,如缺失,它就0.5左右)虽有不同外显子深度不同,但经过归化之后,有固定的值
连续的3个外显子缺失或重复,才会把它调集出来,红的缺失,蓝的重复,如只有一个外显子高了,有可能假阳性,通过这种方法降低假阳性。(少于3个可能是假阳性,小于3个外显子的小片段缺失或重复需验证)
小孩纯合缺失,父母近亲结婚,这个值0,igv上看,完全没reads覆盖,父母应该杂合缺失,杂合缺失需要和正常对照相比测序深度,少一半。
全外显子有20万个外显子,有一些外显子缺失,波动大,分析时把这些外显子去除,大概5-10%左右,按变异系数在0.18情况下,5%左右外显子被丢掉


DMD疾病,体验式分析外显子缺失与重复
路径:Documents→dmd-cnv
打开preprocess.sh
脚本内容如下:

  1. 计算这些样本在DMD上平均测序深度
    java -Xmx30g -jar /home/wei/bin/GenomeAnalysisTK.jar -T DepthOfCoverage -R /home/wei/Documents/gatk/library/ucsc.hg19.fasta -o coverage -I bam.list -L DMD.bed -allowPotentiallyMisencodedQuals --omitDepthOutputAtEachBase --omitIntervalStatistics -ct 1 -ct 10 -ct 20 -ct 50 -ct 100

-L DMD.bed bed文件有3列,第一列染色体编号,第二列每一个外显子起始的位置,第三列外显子终止的位置

  1. 计算每一个样本在DMD上每个外显子它的数据量是多少
    samtools bedcov DMD.bed wj2514.bam wj2568.bam wj2620.bam wj2892.bam wj3124.bam wj3127.bam wj3184.bam wj3268.bam wj3393.bam wj3458.bam wj3809.bam wj3938.bam wj3952.bam wj6803.bam wj6898.bam wj6904.bam wj6958.bam wj7066.bam wj7074.bam wj8081.bam wj9075.bam > dmd-exon-depth

bam文件都放bam.list里面
运行 sh -v preprocess.sh
选中coverage.sample_summary右击open with

临床生信实操(centos7)2_第26张图片

mean 平均测序深度

临床生信实操(centos7)2_第27张图片

把最后一行删去(total)

从第2行开始选至最后,选择sort排序
临床生信实操(centos7)2_第28张图片

save保存一下

再打开dmd-exon-depth
前3列是bed文件,后面是每个外显子在这区间上碱基总数
计算时用R语言:打开cnv-dmd.R
上部分代码,下部分执行,右上是变量,右下是作图
光标放在第二行,点击run


临床生信实操(centos7)2_第29张图片

n <-ncol(data)-3 计算有多少个样本

临床生信实操(centos7)2_第30张图片

在左下方输入data,按回车,就会显示data的变量
临床生信实操(centos7)2_第31张图片

calculate every exon length at last colnumn
计算每个外显子的长度
for (i in 1:nrow(data)){data[i,n+4] <- data[i,3]-data[i,2]}
用第3列的值-第2列的值=(终止-起始)=外显子的长度赋给最后一列
for循环从第1行至79行

calculate mean depth of every exon in every samples
计算每一个样本每个外显子平均测序深度
for (i in 1:nrow(data)){for (j in 1:n){ data[i,(j+3)] <- data[i,(j+3)]/data[i,(4+n)] }}

再输入date[1:3,] 只显示前3行信息


临床生信实操(centos7)2_第32张图片

input sample aveage mean depth
载入平均测序深度
coverage <- read.csv('coverage.sample_summary',header=T,colClasses = "character",sep='\t')
coverage[,3] <- as.numeric(coverage[,3])
主要用第3列,它的测序平均深度,第三列转为树枝型,用每个外显子平均测序深度/自己平均测序深度
exon depth/mean depth
for (i in 1:n){
data[,i+n+4] <- data[,i+3]/coverage[i,3]
}
这样得到的值就是测序频率

归一化,有一个统一的值,无缺失1,有缺失0.5
normlized exon depth ratio
for (i in 1:nrow(data)){sum1 <-sum(data[i,(1+n+4):(n+n+4)]);
for (j in 1:n){ data[i,(j+n+4)] <- data[i,(j+n+4)]/(sum1-data[i,(j+n+4)])*(n-1) }
}

colnames(data)[(5+n):(4+n+n)] <- coverage[,1]
write.table(data,'dmd-normlize-cnv.txt',row.names = F) 把值保存至本地
plot(data[,46]) 画图了最后一个值
plot(data[,45])
plot(data[,44])


临床生信实操(centos7)2_第33张图片

每个圈代表一个归化后的值,两个连续都是0,代表2个外显子缺失,有2个在2.0左右,代表2个外显子的重复。这个是男性的DMD,只有一条染色体(X染色体)要么有要么没有,女性不会发病。

打开UCSC(http://genome.ucsc.edu/)→ Genome Browser→Tools→Table Browser 获得基因的bed

output file 输入名称,命名
点击get output


临床生信实操(centos7)2_第34张图片

也可选想要怎么样的bed,可选整个基因的,也可输入网址,启动子区,还可以除了外显子之外,另外+20个碱基;也可选编码区。


通过分析SMA
大部分用mupA检测试剂盒检测SMA有无缺失重复,或定量PCR。
难分析的特点:SMN1 SMN2 高度同源,最主要的突变在7号外显子上有一个碱基不同(突变)。【90%都是因SMN1的缺失导致】

通过NGS来分析SMN1的拷贝数

思路:分析7号外显子上测序深度
路径:Documents→SMA
bams里存放样本信息,但这文件夹里有患者、携带者和正常人,怎么区分?
在比对情况下,如SMN1基因完全缺失,在7号染色体上所有reads比对到SMN2的7号染色体上,所以在SMN1外显子上 。。。。?

  1. 看SMA比率
  2. 看sma.bed 有2个区间(7号外显子区间)
    临床生信实操(centos7)2_第35张图片

    打开coverage.sh
    脚本内容如下:(只运行第3条命令,其他前两条头加上#)
    java -Xmx30g -jar /home/wei/bin/GenomeAnalysisTK.jar -T DepthOfCoverage -R /home/wei/Documents/gatk/g1k/g1k.fasta -o exome-chr15 -I bam.list -L exome-chr15.bed --omitDepthOutputAtEachBase --omitIntervalStatistics -ct 1 -ct 10 -ct 20

java -Xmx30g -jar /home/wei/bin/GenomeAnalysisTK.jar -T DepthOfCoverage -R /home/wei/Documents/gatk/g1k/g1k.fasta -o smn-whole -I bam.list -L smn-whole.bed --omitDepthOutputAtEachBase --omitIntervalStatistics -ct 1 -ct 10 -ct 20

java -Xmx30g -jar /home/wei/bin/GenomeAnalysisTK.jar -T DiagnoseTargets -R /home/wei/Documents/gatk/g1k/g1k.fasta -o smn-ratio -I bam.list -L sma.bed

DiagnoseTargets GATK的一个工具,计算给定的平均测序深度

当前文件夹右击 open in terminal后运行脚本:
运行 sh -v coverage.sh
打开smn-ratio,从正文部分复制

临床生信实操(centos7)2_第36张图片

打开新的Calc表
临床生信实操(centos7)2_第37张图片

粘贴→转置(右击)
临床生信实操(centos7)2_第38张图片
临床生信实操(centos7)2_第39张图片

一代测序能验证,但不能区分携带者和正常人。
例:sample10 190.22 ,7号染色体:193.44 ,看频率是否1:1,
拷贝数1:1,有可能SMN2是2个拷贝,SMN1也是2个拷贝,一比较可看出,有可能SMN2是1个拷贝,SMN1也是1个拷贝,也是1:1,从比率上不能判断是否是携带者。
sample11 233;243 也是1:1,
sample12 181.82;199.48 也是1:1,
sample13 293.14;288.73 ;1:1,
sample14 196.64;79.23;1:2.5,(拷贝数一般都整数)
sample2 236.38;73.33;1:3,
sample3 267.98;86.58;1:3,
sample4 sample5 质量差不看
sample6 268.32;98.15;1:2.7,
sample7 146.54;64.38;1:2,
sample8 患者
sample9 139.68;145.27;1:1,
通过这个只是判断这个比率是多少,但绝对拷贝数不知,所以要计算总的拷贝数多少,总的如果是4,又是1:1,每个是2个拷贝。

计算总的拷贝数

思路:计算在这2个基因上总的测序数据量多少,根据对照进行相比,就能得到拷贝数是多少,告诉这个软件SMN1和SMN2所在整个基因的区间(整个基因所在位置),计算这2个区域上总的数据量。

打开coverage.sh (把前两条命令注释掉开头加#)
1.计算5号染色体和15号染色体上平均测序深度(平均深度越高,数据量也高),校准:测序深度/平均测序深度
java -Xmx30g -jar /home/wei/bin/GenomeAnalysisTK.jar -T DepthOfCoverage -R /home/wei/Documents/gatk/g1k/g1k.fasta -o exome-chr15 -I bam.list -L exome-chr15.bed --omitDepthOutputAtEachBase --omitIntervalStatistics -ct 1 -ct 10 -ct 20
2.告诉这个软件SMN1和SMN2所在整个基因的区间(整个基因所在位置),计算这2个区域上总的数据量。
java -Xmx30g -jar /home/wei/bin/GenomeAnalysisTK.jar -T DepthOfCoverage -R /home/wei/Documents/gatk/g1k/g1k.fasta -o smn-whole -I bam.list -L smn-whole.bed --omitDepthOutputAtEachBase --omitIntervalStatistics -ct 1 -ct 10 -ct 20

smn-whole.bed 整个基因的区间
打开smn-whole.bed(第1行代表SMN2整个染色体位置,第2行代表SMN1整个染色体位置)

临床生信实操(centos7)2_第40张图片

当前文件夹右击 open in terminal后运行脚本:
运行 sh -v coverage.sh

SMA因是同源基因,虽reads比对时,比对到这2个上面,可随机比对上去,但它会标记,比对到这个地方,同时也比对到另外的地方,但在算碱基数时,随机算,现在合在一起算。(总的拷贝数)

打开exome-chr15.sample_summary(用calc)(计算出每个样本在15号染色体上的平均测序深度)
排序sort(删除最后一行Total和除第1、3列的其他列)
打开smn-whole.sample_summary (用calc)
排序sort(删除最后一行Total和除第1、2列的其他列)
第2列 看这2个基因上总的数据量
把exome-chr15.sample_summary中的mean列复制到smn-whole.sample_summary

再把这2个基因上总的数据量/15号染色体上平均测序深度

临床诊断上能评估SMN2的拷贝数,它能预测它的表型。
1:2,1:3是携带者

你可能感兴趣的:(临床生信实操(centos7)2)