干货 | 如何利用RNA-seq数据分析病毒整合情况?


    哈喽大家好,好久不见。因为疫情原因很多小伙伴们已经居家办公很久了,大家可能也在思考一个问题:在宅家期间没有办法做实验的情况下、如何利用公共数据库做一些课题呢?今天和大家分享一个关于利用RNA-seq数据分析病毒整合情况的应用。一个关于新冠病毒整合的具体应用实例如下,本文中的代码也都参考自这篇文章,大家可以结合自己具体的研究课题做一些尝试。以下我们以HBV作为案例进行学习。

前期准备:

1、首先前往GENCODE官网(https://www.gencodegenes.org)下载人基因组注释文件(“gencode.v38.annotation.gtf.gz“);同时前往NCBI官网下载HBV基因组注释文件(“Sequence.gff3“)。按照以下方式合并Human+HBV的注释文件,命名为“combined.gtf“;

2、同时合并Human+HBV的fasta文件。命名为“combined.fa“;

3、下载并安装STAR、Samtools;

4、下载并安装Picard(http://broadinstitute.github.io/picard)。

分析流程:

1、建立Human+HBV基因组索引文件index

# STAR --runMode genomeGenerate \

--runThreadN 50 \

--genomeDir /path/to/file/comnined_index \

--genomeFastaFiles /path/to/file/combined.fa \

--sjdbGTFfile /path/to/file/combined.gtf \

--sjdbOverhang 99

参数:

–runMode genomeGenerate:基因组生成模式

–runThreadN:启用线程数

–genomeDir:索引输出路径

–genomeFastaFiles:参考基因组路径

–sjdbGTFfile:参考基因组注释文件

–sjdbOverhang:对于不同长度的读取,理想值为--sjdbOverhangmax(ReadLength)-1。在大多数情况下,默认值100与理想值类似。

2、采用STAR进行比对

# nohup STAR --outSAMtype BAM SortedByCoordinate \

--runThreadN 20 \

--genomeDir /path/to/file/combined_index \

--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \

--readFilesCommand zcat \

--outFileNamePrefix ./ Seq_Data_Chimeric &

参数:

–runThreadN:启用线程数

–genomeDir:索引路径

–readFilesIn:输入fastq的文件路径

–outSAMtype BAM SortedByCoordinate:输出排序的bam文件

–outFileNamePrefix:输出文件前缀

3、提取Virus-Host嵌合序列

# mkdir Seq_Data_Chimeric1

# nohup STAR --runThreadN 10 \

--genomeDir /path/to/file/combined_index \

--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \

--readFilesCommand zcat \

--alignIntronMax 1 \

--chimOutType Junctions SeparateSAMold WithinBAM HardClip \

--chimScoreJunctionNonGTAG 0 \

--alignSJstitchMismatchNmax -1 -1 -1 -1 \

--chimSegmentMin 25 \

--chimJunctionOverhangMin 25 \

--outSAMtype BAM SortedByCoordinate \

--outFileNamePrefix ./Seq_Data_Chimeric1 \

--outTmpDir ./Temp &

4、采用Samtools提取Viral reads

# samtools view -b Seq_Data_ChimericAligned.sortedByCoord.out.bam chrHBV > Seq_Data_Aligned.sortedByCoord.out.bam

5、采用Picard提取junction文件

# cut -f 10 Seq_Data_ChimericChimeric.out.junction > Seq_Data.junction.ids

# java -jar /path/to/file/picard.jar FilterSamReads I= Seq_Data_ChimericAligned.sortedByCoord.out.bam O=hv-Seq_Data-Chimeric.out.bam READ_LIST_FILE= Seq_Data.junction.ids FILTER=includeReadList

6、利用UCSC BLAT工具搜索嵌合序列中来自人类及病毒的序列

注:红色为病毒来源序列,蓝色为人类基因序列,绿色为重叠序列。

7、采用Circos (http://circos.ca)对junction文件进行可视化

参考文献:

[1] Zhang L, Richards A, Barrasa MI, Hughes SH, Young RA, Jaenisch R. Reverse-transcribed SARS-CoV-2 RNA can integrate into the genome of cultured human cells and can be expressed in patient-derived tissues. Proc Natl Acad Sci U S A. 2021;118(21):e2105968118. doi:10.1073/pnas.2105968118

[2] Kazachenka A, Kassiotis G. SARS-CoV-2-Host Chimeric RNA-Sequencing Reads Do Not Necessarily Arise From Virus Integration Into the Host DNA. Front Microbiol. 2021;12:676693. Published 2021 Jun 2. doi:10.3389/fmicb.2021.676693

[3] Yin Y, Liu XZ, He X, Zhou LQ. Exogenous Coronavirus Interacts With Endogenous Retrotransposon in Human Cells. Front Cell Infect Microbiol. 2021;11:609160. Published 2021 Feb 25. doi:10.3389/fcimb.2021.609160

[4] Sung WK, Zheng H, Li S, et al. Genome-wide survey of recurrent HBV integration in hepatocellular carcinoma. Nat Genet. 2012;44(7):765-769. Published 2012 May 27. doi:10.1038/ng.2295

往期文章推荐:

干货 | 如何对fastq文件进行批量处理?

干货 | 一文教会你如何分析ATAC-seq数据

干货 | 一文教会你如何采用Linux系统处理RNAseq测序数据

干货 | 全基因组CRISPR文库筛选数据分析——MAGeCKFlute

转录组数据分析之时序分析(maSigPro包)

如何将转录组数据mapping到自己的序列并可视化?(HISAT2+Samtools+IGV)

你可能感兴趣的:(干货 | 如何利用RNA-seq数据分析病毒整合情况?)