Day3-单细胞数据fastq及cellranger

SRA-fastq-cellranger

1.conda安装和管理

#下载Miniconda3安装
wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh 
3-latest-Linux-x86_64.sh
# 安装Miniconda3:安装过程只需要输入 yes 或者按 Enter
bash Miniconda3-latest-Linux-x86_64.sh
# 更新系统环境
source ~/.bashrc
# 判断miniconda3安装是否成功
conda --help

2.设置镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/

conda config --set show_channel_urls yes
conda config --set channel_priority flexible

# 查看当前配置的channel
cat ~/.condarc

3.创建环境

# 创建名为Cellranger的软件环境来安装相关软件
# 安装一个python=3的软件作为依赖
conda create -y -n Cellranger python=3

# 查看当前conda环境
conda info --e

# 每次运行前,激活创建的小环境Cellranger,成功激活进入小环境,即可安装软件
conda activate Cellranger# 激活
conda deactivate # 退出小环境

# 查看当前环境的python版本
python --version

# 删除环境
conda remove -n Cellranger--all

4.conda安装相关软件

# 可以一次安装一个软件,也可以一次安装多个软件
conda install -y sra-tools

# 运行以下语句,不出现报错表示安装成功
fastq-dump --help
# 更新软件:
conda update sra-tools
# 安装指定版本的软件
conda install -y cellranger=2.10.7
# 卸载安装的软件
conda  remove sra-tools
# 软件被conda安装在哪
which sra-tools
# 在当前小环境下,列举所有安装软件。
conda list

5.Fastq

cd 目标文件夹
for f in SRR*
do
nohup fastq-dump --gzip --split-3 $f &
done

其中主要使用的参数:
–gzip:将生成的结果fastq文件进行压缩
–split-3:-3实际上指的是分成3个文件。

  • 如果结果发现只有一个文件,说明数据不是双端(第三个文件太大会覆盖前两个);
  • 如果结果有两个文件,说明是双端文件并且数据质量比较高(没有低质量的reads或者长度小于20bp的reads);
  • 如果结果有三个文件,说明是双端文件,但是有的数据质量不高,存在trim的结果,第三个文件的名字一般是:.fastq, 而且文件也不大,基本可以忽略。
    其中一个文件是测序reads,另一个是UMI+Barcode文件,这两个文件可以用于cellranger。

不过最后我只生成了一个文件,然后通过网上查找资料发现,单细胞用--split-files

for f in SRR*
do
nohup fastq-dump --gzip --split-files $f &
done

情况不对就kill all
ps -ef | grep fastq-dump | awk '{print $2}' | while read id;do kill $id;done
然后顺利生成三个文件了I1、R1、R2(index、barcode+UMI、测序reads)。但是如果还不行的话,推荐建议使用ascp直接从ENA下载fastq
RNA-Seq数据用aspera高效批量下载(万事开头难) (qq.com)

6.修改名称

image.png
# 比如,将原来的SRR7692286_1.fastq.gz改成SRR7692286_S1_L001_I1_001.fastq.gz
# 依次类推,将原来_2的改成R1,将_3改成R2
vi ACC_list.txt
#把SRR号复制进去,创建Acc_list.txt
cat  ACC_list.txt | while read i ;do (mv ${i}_1*.fastq.gz ${i}_S1_L001_I1_001.fastq.gz;mv ${i}_2*.fastq.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_3*.fastq.gz ${i}_S1_L001_R2_001.fastq.gz);done

最后长这个样子


image.png

7.cellranger安装

wget -O cellranger-6.1.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.1.2.tar.gz?Expires=1650212606&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci02LjEuMi50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NTAyMTI2MDZ9fX1dfQ__&Signature=NIczL~Am1NcvCv3kfAJ4ds-BwPGBQ68il7uXJ8k-2Le~vqh4EVGPywaMwS2Zw6yjOQZmsA4vYTyOzjZGpMKtxcMzcMWEE3C1tJGkLN-a0lpdhCD1bDfDrBVdxBeD0FhM112OiMeRlKopyk59X0KFSYiua4SxMY0jqYwBnvrkoXXfD3d7mB~LFIsETpZPydrsHbkyXQbRmxBSnjtK7qS8Yrl-M6Aq-q2toGPZ3zt4kcWGNO5LZHtbHR1B0-HDCv~ycQ1jRmxviSI06XjGUCRVQ9us4wvOHd1kEAje9tOARxPRHfuyJHUF6sdHz9S1LxNu9ysCtcIEeonlaaHGZ93Dbw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
#解压缩
tar -xvzf cellranger-6.1.2.tar.gz
rm cellranger-6.1.2.tar.gz
# 添加环境变量
echo 'export PATH="/mnt/SSS/cellranger/cellranger-6.1.2:$PATH' ~/.bashrc
source ~/.bashrc

8.参考基因组下载

可直接下载10xgenomics官网提供的已构建好的索引文件,否则需要自己构建(使用cellranger mkgtf命令)

#人类GRCh38  #
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#小鼠   Mouse reference dataset required for Cell Ranger.
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#小鼠和人
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz

#解压
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz
tar -zxvf refdata-gex-mm10-2020-A.tar.gz
tar -zxvf refdata-gex-GRCh38-and-mm10-2020-A.tar.gz

10.cellranger count

cd /mnt/SSS/database/GSE155513RAW
#调取cellranger
export PATH=/mnt/SSS/cellranger/cellranger-6.1.2:$PATH
cellranger
cellranger count --id=ZsGreenPosi_Ldlr_KO_0_week_WD \
--transcriptome=/mnt/reference/refdata-gex-mm10-2020-A \
--fastqs=/mnt/SSS/database/GSE155513RAW \
--sample=SRR12363105.1 \
--localcores=2 #设置2个核

image.png

然后就报错了,说是找不到fastq。仔细检查各个参数都没发现问题。唯一有问题的就是命名了。然后看了别人成功的案例,唯一的区别就是别人没有小数点。然后我尝试一下,删掉小数点,竟然成功了。
image.png

那就让它在后台慢慢运行

nohup cellranger count --id=ZsGreenPosi_Ldlr_KO_0_week_WD \
--transcriptome=/mnt/reference/refdata-gex-mm10-2020-A \
--fastqs=/mnt/SSS/database/GSE155513RAW \
--sample=SRR12363105 \
--localcores=30 &

今天又是披襟斩棘的一天,祝好。

参考资料:
单细胞实战(二) cell ranger使用前注意事项 - 云+社区 - 腾讯云 (tencent.com)
https://www.jianshu.com/p/11c4537feb4b

你可能感兴趣的:(Day3-单细胞数据fastq及cellranger)