坑队友系列:ftp协议下载ensembl参考基因组

你问我为啥标题这么长,据说是关键词给的多,容易被搜到。
写得不好,不用海涵,直接提出,谢谢您呐~

1. 前言:

没错,作为一个自以为入门了的人其实还在门外。
根据达克效应图解,充分的认识到了我还在无知(know-nothing)的阶段。


坑队友系列:ftp协议下载ensembl参考基因组_第1张图片
Dunning-Kruger-Effect-and-CRO-1024x492.jpg

2. 知识点:

(1)参考基因组和注释文件

参考基因组:官方解释--字面意思,用来参考的标准基因组(一时半会不能理解),就是长长的基因序列。
基因注释文件:字面意思,即给不同的序列,标注对应的基因名。

我的想法:参考基因组就像是人类的基因“地图”,不同的基因有不同的序列和位置,就好像不同的地理位置有自己不同的特征(序列)和经纬度坐标。而注释文件,就好像是地图上标注好的地名

只有在电影里面看到军事打击才会用坐标(经纬度),而我们普通人就说是地名,毕竟别人问你你家在哪儿的时候,你说我家在东经140维度23?
所以,为了方便人类观看和交流,对于基因的注释是非常重要的。

(2)让人迷乱的各种ID

相信你一定在不同的地方多次看到过各种ID,例如:ensembl ID,gene ID,gene name,gene symbol 等等。种类繁多到让人迷乱。
简单介绍一下,ensembl ID的由来是因为,这个ID系统是ensemble平台在用的呀;gene id貌似是NCBI在用的。可见,不同的平台,都有自己的命名系统。为了方便大家交流,大家规定了基因的官方名字:gene symbol

所以--下载参考基因组和注释文件,一定要在同一个平台上下载。
比如:在ensembl上下载参考基因组,注释文件也要在ensemble上下载。保持来源的一致,在做比对的时候才不容易出错呀。

(3)什么是ensembl、NCBI、UCSC平台--作业,自己查去~

为啥我要列举出这几个平台?因为会用到啊!这是最基本的自学能力了,所以我就不罗列这些是神马东西了,说得再好,还不如自己往官网上走一波。就算现在不去逛,将来还是有得要跑的。

3. 踩坑集合:

百说不如一做,做了就会出错,错了不是坑自己就是坑别人;
经验都是在挖坑和填坑的过程中积累的,自己挖的坑,跪着也要填上;

1st 大部分的坑都源于自己的无知

刚开始我不会下载ensembl数据,然后我偷懒去UCSC上下载了基因组,再在ensembl上面下载了注释,最后。。。

ensembl介绍

ensembl是通过ftp协议可以下载的,ftp是个什么协议,算了你不要管了,大概就是一个网盘,然后每个文件都有自己的链接,你可以通过wget+链接的命令直接下载(其实就是省去了右键--复制链接地址--打开迅雷粘贴地址--开始下载的步骤)。干嘛!这么较劲,就是能下载就行了,不要问为啥碗可以拿来吃饭,重点是吃饭,不是为啥吃饭要用碗,知道不?

ftp ensemble : https://asia.ensembl.org/info/data/ftp/index.html

坑队友系列:ftp协议下载ensembl参考基因组_第2张图片
ftp ensemble.png

坑队友系列:ftp协议下载ensembl参考基因组_第3张图片
download the database and gtf file via wget+link.png

2st 实力坑队友

那么问题来了,我是怎么坑的队友呢?如果你没有一个好脾气的队友,请不要轻易尝试,好好学习保平安。如果你是一个好脾气的队友,也尽量远离我这样的SUPER BUG。

坑队友系列:ftp协议下载ensembl参考基因组_第4张图片
the wrong link.png

坑队友系列:ftp协议下载ensembl参考基因组_第5张图片
holy keng!.png

算了,我还是不写了,反正也不差多坑几个人。没错,今天的踩坑集合只有2个,因为我今日份的反省还没做,拜拜~

感谢洲更

你可能感兴趣的:(坑队友系列:ftp协议下载ensembl参考基因组)