loom文件的生成

在单细胞测序的轨迹推断中,我们介绍了RNA速率分析的原理,进行速率分析的前提就是需要得到未剪切的 (unspliced) 和剪切的 (spliced) mRNA信息。
这个文件需要我们从fastq文件开始,与基因组比对的到sam文件,从sam文件转成bam,再从bam中提取上面的消息,得到.loom为后缀的文件。(参考:生物信息学常见数据格式)

loom文件的生成需要使用velocyto。针对不同的测序平台,velocyto有不同的方法进行loom文件的提取,参考官网:http://velocyto.org/velocyto.py/tutorial/cli.html#run-smartseq2-run-on-smartseq2-samples

  1. 安装velocyto
## 1. 创建python>3.6的环境
conda create -n velocyto python=3.6
## 2. 安装前置软件
conda install numpy scipy cython numba matplotlib scikit-learn h5py click
pip install pysam
## 3. 安装velocyto
pip install velocyto
## 4. 测试
velocyto --help
Usage: velocyto [OPTIONS] COMMAND [ARGS]...

Options:
  --version  Show the version and exit.
  --help     Show this message and exit.

Commands:
  run            Runs the velocity analysis outputting a loom file
  run10x         Runs the velocity analysis for a Chromium Sample
  run-dropest    Runs the velocity analysis on DropEst preprocessed data
  run-smartseq2  Runs the velocity analysis on SmartSeq2 data (independent bam file per cell)
  tools          helper tools for velocyto
  1. repeat_masker.gtf生成
    运行velocyto需要准备三个文件,单细胞数据分析的结果文件,基因组注释文件,重复序列注释文件,其中前两个在单细胞分析时就会得到,关键是repeat_masker.gtf的生成

  2. loom文件生成
    接下来是生成loom文件,运行velocyto需要准备三个文件,基因组注释文件(gtf),repeat_masker.gtf(重复序列注释文件),cellranger的结果文件夹(以样本名WT_1为例,里面包含cell matrix和bam文件)

参考:https://www.zhouxiaozhao.cn/2020/11/10/RNAvelocity(1)/

你可能感兴趣的:(loom文件的生成)