24.《Bioinformatics-Data-Skills》之案例:数据下载

《Bioinformatics-Data-Skills》之案例:数据下载

这里通过下载小鼠的参考基因组与注释数据的案例来巩固一下前面所学内容。采用的是小鼠的GRCm38版本的参考基因组与注释文件,通过Ensembl网站下载。

1. 下载数据

我们首先使用wget命令FTP链接下载参考基因组与注释数据(这些数据可以在Ensembl网站选择小鼠=>选择版本=>选择Download DNA sequence(FASTA)查看):

wget ftp://ftp.ensembl.org/pub/release-74/fasta/mus_musculus/dna/Mus_musculus.GRCm38.74.dna.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-74/gtf/mus_musculus/Mus_musculus.GRCm38.74.gtf.gz

参考基因组是压缩的fasta文件,如果我们想要看一眼文件内容的话,可以使用zgrep命令看匹配header部分内容(可能需要稍等一会):

zgrep "^>" Mus_musculus.GRCm38.74.dna.toplevel.fa.gz | less

# >1 dna:chromosome chromosome:GRCm38:1:1:195471971:1 REF
# >10 dna:chromosome chromosome:GRCm38:10:1:130694993:1 REF
# >11 dna:chromosome chromosome:GRCm38:11:1:122082543:1 REF
# >12 dna:chromosome chromosome:GRCm38:12:1:120129022:1 REF
# >13 dna:chromosome chromosome:GRCm38:13:1:120421639:1 REF
# ......

2. 检验数据的完整性

文件下载地址下还存放了所有文件的checksum值,这个值由linux的sum命令生成。我们可以确认一下所下载数据的完整性

wget ftp://ftp.ensembl.org/pub/release-74/fasta/mus_musculus/dna/CHECKSUMS
# 53504 793314    Mus_musculus.GRCm38.74.dna.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-74/gtf/mus_musculus/CHECKSUMS
0985 15074     Mus_musculus.GRCm38.74.gtf.gz
sum Mus_musculus.GRCm38.74.dna.toplevel.fa.gz
# 53504 793314
sum Mus_musculus.GRCm38.74.gtf.gz
# 00985 15074

这里下载的数据是完整的。为了便于分享,我们可以重新生成SHA-1 checksum值:

shasum Mus_musculus.GRCm38.74.dna.toplevel.fa.gz
# 01c868e22a9815c0c8ac247c2154c20ae7899c5f  Mus_musculus.GRCm38.74.dna.toplevel.fa.gz
shasum Mus_musculus.GRCm38.74.gtf.gz
# cf5bb5f8bda2803410bb04b708bff59cb575e379  Mus_musculus.GRCm38.74.gtf.gz

3. 生成记录文件

在已下载数据所在目录下生成README.md文件,记录以下内容

## 基因组与注释数据
小鼠参考基因组版本CRCm38(Ensembl release 74) 于2021-6-17 19:20:30下载,下载命令:
    wget ftp://ftp.ensembl.org/pub/release-74/fasta/mus_musculus/dna/Mus_musculus.GRCm38.74.dna.toplevel.fa.gz

基因组注释数据(同样为Ensembl release 74)从Ensembl于2021-6-17 19:24:05下载, 下载命令:
    wget ftp://ftp.ensembl.org/pub/release-74/gtf/mus_musculus/Mus_musculus.GRCm38.74.gtf.gz

## SHA-1 sum
- `Mus_musculus.GRCm38.74.dna.toplevel.fa.gz`: 01c868e22a9815c0c8ac247c2154c20ae7899c5f
- `mus_musculus/Mus_musculus.GRCm38.74.gtf.gz`: cf5bb5f8bda2803410bb04b708bff59cb575e379

可以看出,追踪你的数据只需要很小的努力,重要的是形成习惯并且保持一致性。

你可能感兴趣的:(24.《Bioinformatics-Data-Skills》之案例:数据下载)