CellRanger使用学习

本文参考多篇教程(请查看本文最后的参考资料)

安装

可查看10xgenomics官网安装教程

# 2.0版本下载
curl -o cellranger-2.0.2.tar.gz "http://cf.10xgenomics.com/releases/cell-exp/cellranger-2.0.2.tar.gz?Expires=1557256518&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9jZWxsLWV4cC9jZWxscmFuZ2VyLTIuMC4yLnRhci5neiIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTU1NzI1NjUxOH19fV19&Signature=HoJUuPo4iTFdQgzFU1GH7uKf3uGitQxTjB6WOA9qGPlejf7tNcBPjO65WuSUZ~w8WWdeAvky-oV7XGfheY-bUr2b7QHr7jQEqc84cyU~PLvT~fYjkgC7cG7nlpbJOT~b7U~YH9amvR~SCLlyynp7scPDIA~9~keCYrIPgevTf2QyktybuSyjNTwugefOic~~XFkc9lrS~WQ9MNA1CLl4ExlQKsxWS77PEB6mwrMZXX65obDnZW9fIs3dIny6H5YoadbkgmsT52jmLien6PsG1g2jpAO90pPuHoru8LL64Q9gmB3I0nJAqi3EmrO3GKnUpHUhGb6doKmjSN6XccpmsA__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
# 2.1版本下载
curl -o cellranger-2.1.1.tar.gz "http://cf.10xgenomics.com/releases/cell-exp/cellranger-2.1.1.tar.gz?Expires=1557260110&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9jZWxsLWV4cC9jZWxscmFuZ2VyLTIuMS4xLnRhci5neiIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTU1NzI2MDExMH19fV19&Signature=RNQd-gTASTQhtnUSBfQWrnqo6Pyy2wDXtV5tlxkG97727GvoRhMqFXbEsz4gJl2BMckdVvW3S1tZRwRo5pmxPzmhq-8RKxf99pGqlzo84HYqhbIRkxXlIbLbj-u3PUJqo8cesWpbSVSKkS2TCNS-9GMFNieQswqMS2-DN4BqoBOJnWr7T4wlOMd9hypXWwOsW2P2fqaM-WP2ooMyo-oIxm3y9gDghXdDEP5lvHU7GCQcFGGexkdIrD6S5p8JPJ1DB5XieGrtEuP1YVp6tLMGXFoRWXS8dQLI1egWDYlOuRaiQgLIb3o5ZxBg5NpzLPP5kDHMAVzJFdBpf~~rkyNYTA__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
# 3.1.0版本下载
curl -o cellranger-3.1.0.tar.gz "http://cf.10xgenomics.com/releases/cell-exp/cellranger-3.1.0.tar.gz?Expires=1592533436&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9jZWxsLWV4cC9jZWxscmFuZ2VyLTMuMS4wLnRhci5neiIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTU5MjUzMzQzNn19fV19&Signature=devRIwYTTAupcAWpv2pvGblUKXeqwRmRO~cp49UGz5XTM~4vzzGGS63ZwpZ8VnDy5wjbv27ydnx19jN~xyIE9dkr8XFnhTNNgs3G9AYC72oiCTbv1j38ohEy9hfoVoFCl7x5b1-4DG-~SaIggBIDJB0ADLn28xGuyoIKPpuc69hdTEzbriFDdK-596SIKGT-ljXyCddreC81RDuPQs5wARicScA058E7A4HD~5R9iPew1ZxCjkPmD7PQtg976zJA3AOtJDPDeLQM-Xps~DgbpuHvRqEYA~GTP8lTX5icO4VOcd24btgHOb5Qo2jQDb5VtHJeMlSH6mTzz4jFhZ8vBQ__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
# 解压 
tar -zxvf cellranger-2.0.2.tar.gz 
# 添加环境变量
echo 'export PATH=/home/biosoft/cellranger-2.2.0:$PATH' >> ~/.bashrc
source  ~/.bashrc

下载参考基因组数据

可直接下载10xgenomics官网提供的已构建好的索引文件,否则需要自己构建(使用cellranger mkgtf命令)

#人类GRCh38  #Human reference (GRCh38) dataset required for Cell Ranger
curl -O http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
#人类hg19  #Human reference (hg19) dataset required for Cell Ranger
curl -O http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-hg19-3.0.0.tar.gz
#小鼠   Mouse reference dataset required for Cell Ranger.
curl -O http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-mm10-3.0.0.tar.gz
#解压
tar -zxvf refdata-cellranger-mm10-3.0.0.tar.gz
tar -zxvf refdata-cellranger-GRCh38-3.0.0.tar.gz

下载单细胞测序example data(fastq格式)

官网example data

#小鼠 1k Brain Cells from an E18 Mouse(931 cells ) 5.31 GB (Analysis run with --expect-cells=2000)(Analysis run with reference version 1.2.0)
nohup wget 'http://cf.10xgenomics.com/samples/cell-exp/2.1.0/neurons_900/neurons_900_fastqs.tar' &
tar -xvf neurons_900_fastqs.tar
#人类 4k PBMCs from a Healthy Donor(4,340 cells)36.38 GB  (Analysis run with --expect-cells=5000)
nohup wget 'http://s3-us-west-2.amazonaws.com/10x.files/samples/cell-exp/2.1.0/pbmc4k/pbmc4k_fastqs.tar' &
#人类 1k PBMCs from a Healthy Donor (996 cells ,v2 chemistry)  5.94 GB     (run with --expect-cells=1000)
wget http://cf.10xgenomics.com/samples/cell-exp/3.0.0/pbmc_1k_v2/pbmc_1k_v2_fastqs.tar

如果从GEO下载SRR数据,再用fastq-dump转换为fastq格式,需注意使用另外一个参数--split-files来替代--split-3,才能生成3个fastq文件I1、R1、R2(index、barcode+UMI、测序reads)

cellranger流程

cellranger有多个流程,主要有4个流程 mkfastq、定量 count、组合 aggr、reanalyze。
如果是bcl原始测序数据,需用mkfastq转换为fastq格式(根据index将reads分配至不同的样本)。如果是fastq格式数据,则可直接用count命令定量,得到表达矩阵,然后用aggr命令整合样本(比如实验组有多个重复样本),最后reanalyze进行后续降维聚类等等分析。(最简单的流程:如果是单个样本,只用count命令+R包即可)

定量 count

命令行参考:
https://www.jianshu.com/p/c7e41948ad0a
https://www.jianshu.com/p/5157ab9f6977
官网tutorial

cellranger count --help  #查看更多参数

cellranger count --id=sample345 \
                   --transcriptome=/opt/refdata-cellranger-GRCh38-1.2.0 \
                   --fastqs=/home/scRNA/runs/HAWT7ADXX/outs/fastq_path \
                   --sample=mysample \
                   --expect-cells=1000 \
                   --nosecondary
# id指定输出文件存放目录名
# transcriptome指定与CellRanger兼容的参考基因组
# fastqs指定mkfastq或者自定义的测序文件
# sample要和fastq文件的前缀中的sample保持一致,作为软件识别的标志
# expect-cells指定复现的细胞数量,这个要和实验设计结合起来
# nosecondary 只获得表达矩阵,不进行后续的降维、聚类和可视化分析(因为后期会自行用R包去做)

输出结果说明:
filtered_gene_bc_matrices:是重要的一个目录,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的输入文件。
web_summary.html:质控比对报告(一般认为外显子的比对率要在60%以上)。barcode用来标记细胞,UMI用来标记转录本;其次,barcodes数量时要大于细胞数量的(以保证每个细胞都会有barcode来进行区分)。

组合 aggr

参考 https://www.jianshu.com/p/5157ab9f6977
官网tutorial

当处理多个生物学样本或者一个样本存在多个重复/文库时,最好的操作就是先分别对每个文库进行单独的count定量,然后将定量结果利用aggr整合成单一的feature-barcode matrix。

cellranger aggr --help
### step1 分别count
$ cellranger count --id=LV123 ...
... wait for pipeline to finish ...
$ cellranger count --id=LB456 ...
... wait for pipeline to finish ...
$ cellranger count --id=LP789 ...
... wait for pipeline to finish ...

## step2 构建Aggregation CSV
# 示例AGG123_libraries.csv
library_id,molecule_h5
LV123,/opt/runs/LV123/outs/molecule_info.h5
LB456,/opt/runs/LB456/outs/molecule_info.h5
LP789,/opt/runs/LP789/outs/molecule_info.h5
# 其中
# molecule_h5:文件molecule_info.h5 file的路径 

### step3
cellranger aggr --id=AGG123 \
                  --csv=AGG123_libraries.csv \
                  --normalize=mapped
# 结果输出到AGG123这个目录中
# --id 命名输出目录
# --csv Aggregation CSV,为逗号分隔的2列,第一列为自定义的library id,第二列为上一步骤count流程的输出文件molecule_info.h5的路径
# --nosecondary 跳过降维聚类

aggr还可以整合不同Chemistry Versions(如V2,V3)的文库,矫正批次效应(batch effect correction)
只需要Aggregation CSV多加一列:
library_id,molecule_h5,batch
LV123,/opt/runs/LV123/outs/molecule_info.h5,v2_lib
LB456,/opt/runs/LB456/outs/molecule_info.h5,v3_lib
LP789,/opt/runs/LP789/outs/molecule_info.h5,v3_lib

术语解释

index标记样本,barcode标记细胞,UMI标记转录本。
i7 sample index (library barcode)
是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。它的作用就是在CellRanger的mkfastq 功能中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起,表示同一个样本。它保证了一个测序lane上可以容纳多个样本。一个index set有4个oligos。

Barcode
是10X特有的,用来区分GEMs,也就是对细胞做了一个标记。一般在拆分混样测序数据(demultiplexing)这个过程后进行操作,当然这也很符合原文的操作。

UMI
UMI就是Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,根据PCR结果可以计数不同的UMI,最终统计mRNA的数量。它的主要作用是,处理PCR 扩增偏差,因为起始文库很小时需要的PCR扩增次数就越多,因为越容易引入扩增误差。

v2 chemistry和v3 chemistry的区别:
和V2相比,V3试剂盒中所用的UMI和PolyT的长度都发生了变化,从而导致测序得到的R1和R2端的序列长度也不一致,V2试剂盒的R1端长度为26bp, 包含16bp的barcode和10bp的UMI序列,V3试剂盒的R1端长度为28bp, 包含16bp的barcode和12bp的UMI序列;V2试剂盒的R2端为98bp, V3试剂盒的R2端为91bp。

注意

CellRanger 定量count过程输入文件指定命名格式为
[sample name]S1_L00[lane number][read type]_001.fastq.gz
read type有3种,I1为sample index read, R1为barcode和UMI, R2才是测序read.
例如:
pbmc_1k_v2_S1_L001_I1_001.fastq.gz
pbmc_1k_v2_S1_L001_R1_001.fastq.gz
pbmc_1k_v2_S1_L001_R2_001.fastq.gz
在SRA或ENA下载的数据要自己重命名为cellranger输入命名格式,
比如,将原来的SRR7692286_1.fastq.gz改成SRR7692286_S1_L001_I1_001.fastq.gz
依次类推,将原来_2的改成R1,将_3改成R2

cat  SRR_Acc_List-9245-3.txt | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_I1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_3*.gz ${i}_S1_L001_R2_001.fastq.gz);done

cellranger还提供了一个小工具,让你全面了解你的linux性能,查看服务器配置。比如查看当前电脑可用核数。

cellranger sitecheck > sitecheck.txt

参考资料:
https://www.jianshu.com/p/9040b7573380
https://www.jianshu.com/p/18665f9de0c1
https://www.jianshu.com/p/8926dc87898d
https://www.jianshu.com/p/c7e41948ad0a
https://www.jianshu.com/p/62f209128f91
https://www.jianshu.com/p/46f6b08cbec2
http://www.bio-info-trainee.com/3017.html
https://www.jianshu.com/p/5157ab9f6977
https://www.jianshu.com/p/30de2aea4b74
https://www.jianshu.com/p/e8b2b9a43cb3

你可能感兴趣的:(CellRanger使用学习)