TCR

TRUST

1、 概述

TRUST,是从RNA-seq原始数据组装到TCR CDR3的软件,专门为RNA-seq数据设计的工具[Ref1]。

它是这样评价先前的工具的:[Ref2]

However,these studies adopted computational methods not specifically designed for unselected RNA-seqdata14–16, resulting in poor detection of CDR3 sequences and limited power in downstream characterization of the tumor-infiltrating T cell repertoires of the cohorts.

2、 工作流程

比对RNA-seq数据,把那些没有比对到基因组的reads从头组装出候选CDR3序列,最后用IMGT数据库的数据注释这些序列,保留能注释到的作为最终组装到的CDR3序列。

原理示意图:


TCR_第1张图片

3、 TRUST的使用

一、输入准备:

输入文件需要bam和与之对应的索引文件bai

第一步:比对RNA-seq数据,获得bam文件,并且将未比对上的reads和比对上的reads合并到一个bam文件里,作为TRUST输入。

第二步:为输入文件bam构建索引,注意bam文件和对应的索引文件bai要在同一个路径下。

二、开始组装:

运行TRUST,组装CDR3

例子:以及tophat做比对软件为例

一、输入准备:

#比对RNA-seq数据

#注意使用tophat的-o参数,将每个样本比对结果单独写进自己单独的文件夹,因为tophat结果文件没有样本标签

tophat2 -o /pub6/temp/cmj/Bam2/sample  hg19  sample_1.fastq sample_2.fastq

#比对结果文件如下,如果不单独建立一个文件夹,后一个样本结果可能覆盖前一个样本

#合并比对上和未比对上的bam文件,输出为sample.unsorted.bam

samtools merge sample.unsorted.bam accepted_hits.bam unmapped.bam      

#构建sample.unsorted.bam文件的索引

samtools sort --threads 8 -o sample.sort.bam sample.unsorted.bam

samtools index sample.sort.bam

二、开始组装:

#组装CDR3序列

trust  -f  sample.sort.bam -g  hg19  -c

4、 参数介绍

trust  -f  sample.sort.bam -g  hg19  -c

##必须参数

-f      是你需要组装的RNA-seq比对的结果文件,里边需要含有未比对到基因组上的reads

-F     处理给定文件名list下所有的文件(在一个txt文档里)

-d     处理给定文件夹下所有的bam文件

#以上是三选一

-g     你要使用的索引,可选hg19或者hg38

##可选参数

-c    输出文件里,包含TCR基因的coverage文件

-B   组装BCR的序列(我未使用过)

-B  -L      组装BCR的轻链(我未使用过)

-o 输出结果所在的文件夹

更详细的情况请参考:

https://bitbucket.org/liulab/trust/

或者在该链接下对应的论坛交流

5、 结果文件

主要有三个文件:


其中.fa文件结果如下:

## Information line contains the following fields:

# File name

# Normalized read count, or relative expression

# Contig sequence length

# Total TCR reads count

# TRUST annotated variable gene

# TRUST annotated joining gene (and constant gene in the case of B cell heavy chain)

# Aligner reported gene (PE mode only)

# CDR3 amino acid sequence

# -log(E value), QC measure for mapping CDR3 contig to IMGT reference

# CDR3 DNA sequence

#其中第三个是每个基因覆盖度

#txt文件和fa文件基本一样,fa文件是经过过滤掉一些短的CDR3 aa(来源于该软件论坛)

Ref1: Ultrasensitive detection of TCR hypervariable-region sequences insolid-tissue RNA–seq data,Nat Genetics,30 March 2017.27

Ref2: Landscapeof tumor-infiltrating T cell repertoire of human cancers, Nat Genetics, 2016,27


你可能感兴趣的:(TCR)