处理tcga突变数据一点思考

TCGA突变数据

  • 写在前面
    • 泛癌mc3作图
    • 学到的额外知识点
    • 使用TCGAbiolinks下载数据
      • TCGA关于maf的注释
      • 代码文件夹命名最好还是以英文命名,中文命名经常会出现错误
      • GTF文件有的以、t,有的以;分割
      • perl 一行式
      • 基因命名方式
    • 未解决问题

写在前面

大概是在利用xena网站的数据作图时,碰到一些问题。一个是xena下载的数据不能直接作为maf文件,需要稍微做点变换,这个好解决,不好解决的是关于变异类型存在的问题。
vaf的说明参考:https://byteofbio.com/archives/7.html#:~:text=VAF%20%E7%9A%84%E5%85%A8%E7%A7%B0%E6%98%AF%20Variant%20Allele%20Frequency%20%EF%BC%88%20%E5%8F%98%E5%BC%82%E7%AD%89%E4%BD%8D%E5%9F%BA%E5%9B%A0%E9%A2%91%E7%8E%87%20%EF%BC%89%E6%88%96,p%20t%20h%20%3D%20A%20D%20D%20P
3‘5’端说明:查看知乎,说是在核苷酸连接磷酸基团的那端我们称为 5‘ 端,连接着羟基的那端称为 3’ 端。
变异信息一些说明(ANNOVAR结果说明-SNP/INDEL):https://www.jianshu.com/p/6c11fe689bac

泛癌mc3作图

瀑布图结果:处理tcga突变数据一点思考_第1张图片
图表中没有multi_hit信息,但注释有,而且自己的文件存在这样一些问题
在这里插入图片描述
就是某个一个基因有多个突变,但是数据将其放在一块了,就会变得非常奇怪,在变异列中会非常挤,且让我们损失部分信息。
尝试下从GDC平台下载的数据处理会不会有这样的问题;
从GDC平台下载的数据处理不会有上述effect的问题,但问题在于做了处理后画不出来oncoplot图,原因应该是effect命名方式不一致,这可能说明需要重新更改effect的命名规则,而这个multi_hit问题也还是存在着
针对上面这个问题,下载GDCMUTEct2的数据不会有这个问题,但effect还是这样子,不符合规范
处理tcga突变数据一点思考_第2张图片
作图时处理tcga突变数据一点思考_第3张图片

学到的额外知识点

处理tcga突变数据一点思考_第4张图片
一个是VAF,这个属于突变碱基占该位点碱基比例。

使用TCGAbiolinks下载数据

果子前辈的教程是真的好用:https://mp.weixin.qq.com/s/rdFnq6jCMIjmrWI8A8fS5g
只是安装最新版TCGAbiolinks时,更新R版本,中间遇到了R包老的问题,头疼了一阵,但是后面也都解决了,因为这个大概找到了更新全部R包的代码:
install.packages("rvcheck") library(rvcheck) rvcheck::check_r() rvcheck::update_all(check_R = FALSE,which = c("CRAN","BioC","github"))
直接用perl代码运行速度快,而用R是简便但速度略慢。

TCGA关于maf的注释

https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

代码文件夹命名最好还是以英文命名,中文命名经常会出现错误

GTF文件有的以、t,有的以;分割

但是R用rtracklayer::import(“gencode.v19.annotation.gtf”)能解决这个问题。处理tcga突变数据一点思考_第5张图片

perl 一行式

https://cloud.tencent.com/developer/article/1642632

zcat  gencode.v34.annotation.gtf.gz | grep   protein_coding |perl -alne '{next unless $F[2] eq "gene" ;/gene_name \"(.*?)\";/; print "$F[0]\t$F[3]\t$F[4]\t$1" }' >protein_coding.hg38.position

针对上述代码,表示的先找到protein_codeing信息的行,再看第三列是不是基因,是的话做正则,不是的话直接跳过

基因命名方式

NCBI的RefSeq数据库ID,一般是两个大写首字母,加下划线,后面为数字。两个首字母 ”NC”、”NM”、”NP_”分别代表DNA、mRNA、Protein。

未解决问题

1.有没有一个文件对应人类全部的外显子序列,理论上应该有,不然,全外显子测序何来?
我需要找到这个文件
2.xena上的文件已经有点过时了,因为数据可能一直没有更新吧,所以尽量能在官网上下还是在官网上下
官网注释的文件同样存在effect那边很冗余的情况,把这类相对应的行删掉后就可以正常跑onco图了,原先LUSC12万行,大致存在这样的行800多,共包含300多个样本,560个基因,大概每个样本有两三行这类信息,所以删掉应该是影响不大的。

你可能感兴趣的:(生物信息学)