目录
#什么是生物信息学
#研究什么
#要学什么
#怎么学
#我们能拿它来做些什么
#个人学习后的一些想法
什么是生物信息学
生物信息学是一门交叉学科,它包含了生物信息的获取,加工,存储,分配,分析,解释等在内的所有方面,运用==数学,计算机科学和生物学==的工具,==阐明==和理解大量数据所包含的==生物学意义。==
研究什么
粗略的分为三块,一是基于测序的,基因组学、元基因组学、转录组学、修饰组学等等。二是结构生物学的计算部分,比如蛋白折叠模拟、晶体解析等等。三是系统生物学,在电脑里模拟一个生物个体的动态(现在应当只能做到简单的单细胞)。
要学什么
- 数据获取
- 数据处理
- 数据分析
生物数据库:
- 常见数据库和分类
Pubmed(文献数据库)
Genbank(核酸数据库)
Ensemble(基因组数据库):[http://www.ensembl.org](如何从染色体入手寻找一个基因的具体信息)
JCVI(微生物宏基因组数据库):[www.jcvi.org](个人感觉是NCBI的补充)
二级核酸数据库:
Refseq数据库:
参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列,转录序列和蛋白质序列。
dbEST数据库:
表达序列标签数据库,包含来源于不同物种的表达序列标签。
Gene数据库:
为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万基因记录。
ncRNAdb:
[http://biobase.ibch.poznan.pl/ncRNA]
非编码RNA数据库,提供非编码RNA的序列和功能信息。包含来源于99种细菌,古细菌和真核生物的3万条数据库。
miRBase:
[http://www.mirbase.com]
主要存放已发表的microRNA序列和注释。可以分析microRNA在基因组中的定位和挖掘microRNA序列间的关系。
一级蛋白质数据库:
UniProtKB:[https://www.uniprot.org/](Blast工具也很好用)
RCSB PDB[http://www.rcsb.org/](可以查看3D结构)
二级蛋白质数据库:
Pfam数据库[http://pfam.xfam.org](蛋白质结构域家族的集合)
CATH,SCOP2(蛋白质结构分类数据库)
KEGG:是关于基因、蛋白质、生化反应以及通路的综合生物信息数据库,是多个子库构成。
- 如何快速寻找信息
根据需要选择适合的数据库,如果是需要批量下载数据,可以用脚本语言写爬虫去批量爬取数据。
序列比对
- 双序列比对
BLAST:
https://blast.ncbi.nlm.nih.gov/Blast.cgi
https://www.uniprot.org/blast/
- 多序列比对
EMBL CLUSTAL OMEGA
Jalview(编辑和发布)
CLUSTAL X
- 寻找保守区
Weblogo
蛋白质结构预测与分析
- 二级结构获取
DSSP指认
PDB获取
- 二级结构软件预测
PSIPRED
Jpred3
PREDICTPROTEIN
SSpro
PSSpred
PREDATOR
GOR V
- 三级结构可视化
VMD
- 三级结构预测
模型质量评估
综合法
从头计算法
同源建模法
穿线法
- 四级结构
- 蛋白质分析对接
- 虚拟筛选与反向对接
- 分子动力学模拟
基因组学和蛋白组学
- 测序
基因组测序:需利用拼接,基因组注释(RNA,蛋白质和重复序列)
转录组测序
蛋白质测序
- 分析
以基因组学为例:
GC含量和组成
重复序列类型和分布
基因结构和染色体分布
基因有无和数目
结构域数目和组成
基因家族数目和组成
- 注释
蛋白质编码基因的注释
RNA基因的注释
重复序列的注释
假基因的注释
分子进化系统发生
- 系统进化树
- 用MEGA构建系统发生树
https://www.jianshu.com/p/5bca81a01e70
算法
- 解决问题的方法
统计基础
- 贝叶斯定理
- 隐马尔可夫模型
- 动态神经网络
- MATLAB的应用实例
- ···
数据挖掘
- 从大数据中挖掘有用信息
- WEKA
编程和网页基础
推荐python/R/Perl/GO
学习网页基础(html,javascript)是为了写爬虫从网页中获取相关的数据
Linux
推荐学习:
http://wiki.jikexueyuan.com/project/learn-linux-step-by-step/file-system-profile.html
pwd:列出当前目录的完整路径,明确你在哪;
cd :跳转到其他目录,两个好用的cd命令,”cd -“ 跳回最近一次的目录,”cd ..” 退回上一层目录;
ls:列出当前目录内容,最好加上 -l -rt 参数,会更加清晰,目的是明确目录下都有什么;
mkdir:创建目录;
rm:删除文件或者目录;
mv:重命名文件或者目录;
cat:打开文本文件,内容输出到屏幕;
less -SN:打开文本文件,这个是查看文本文件更合适的方式;
head -n:查看文件前n行;
tail -n:查看文件尾n行;
wc -l:计算文本文件的行数;
”|“: 管道操作;
grep命令;
awk命令;
sed命令;
sort命令;
du -sh ./: 检查当前目录所占空间大小;
bc -l:启动Terminal下的计算器,可以在这里进行简单的数学运算,输入”quit”就可以退出;
chmod:修改文件或者目录权限;
怎么学
掌握基本概念:[http://www.bioon.com.cn/doc/showarticle.asp?newsid=70331]
推荐一本书:《Lewin 基因X》
NGS(下一代测序技术):又称高通量测序,以高输出量和高解析度为主要特色,能一次并行对几十万到几百万条DNA分子进行序列读取,在提供丰富的遗传学信息的同时,还可大大降低测序费用、缩短测序时间的测序技术。
Sanger法测序(一代测序):是一种利用DNA聚合酶来延伸结合在待定序列模板上的引物的测序技术。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
基因组学(genomics):基因组学是研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。
功能基因组学(Functional Genomics):又称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(Serial Analysis of Gene Expression, SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragments display)
比较基因组学(Comparative Genomics):比较基因组学是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。
表观遗传学:研究在不改变DNA序列的前提下,通过某些机制引起可遗传的基因表达或细胞表现型的变化的一门遗传学分支学科。表观遗传现象包括DNA甲基化、RNA干扰、基因组印记、母体效应、基因沉默、核仁显性、休眠转座子激活和RNA编辑等。其研究内容主要包括两类:一类为基因选择性转录表达的调控,有DNA甲基化、基因印记、组蛋白共价修饰和染色质重塑;另一类为基因转录后的调控,包括基因组中非编码RNA、微小RNA、反义RNA、内含子及核糖开关等。
·······
学会搜索资料[http://search.chongbuluo.com/]
- 搜索引擎
必应
百度
谷歌[科学上网]
维基百科
- PDF电子书获取
- 论文获取
知网
万方
实践
- 训练
Rosalind[http://rosalind.info/problems/locations/]上有许多生物信息学训练题,涵盖面广,可以拿来训练。
- 尝试构建完整的自动化流程
学习
学习统计学知识(假设检验,贝叶斯推断、随机森林,SVM,回归分析,PCA),多看优秀的算法。
博客,论坛和书推荐
博客,论坛:
碱基旷工:http://www.huangshujia.me/archives/
生信菜鸟团:https://shengxin.ren/people/342
生信技能树:http://www.biotrainee.com/
丁香园:http://www.dxy.cn/bbs/board/73
Omicshare:http://www.omicshare.com/forum/portal.php
小木虫
书:
《生物信息学》
《Bioinformatics Data Skills- Reproducible.and.Robust.Research.with.Open.Source.Tools》
《Bioinformatics with Python Cookbook》
在线课程:
Python学习:
https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/
Linux:
http://wiki.jikexueyuan.com/project/learn-linux-step-by-step/
山大:
https://www.bilibili.com/video/av22086086
生信小技巧:
https://www.bilibili.com/video/av25131640
约翰•霍普金斯大学的Bioconductor学习课程
http://kasperdanielhansen.github.io/genbioconductor/
台湾长庚大学的NGS课程
http://petang.cgu.edu.tw/Bioinfomatics/
我们能拿它来做些什么?
- 寒假的一个小实践
- 某些工作对我们目前来说缺乏操作的可能性。
- 可以把它作为提升个人竞争力的一个选择。
浙江大学生物信息学竞赛
蛋白质结构预测CASP竞赛
江苏大学生计算机设计大赛
发布文章
个人学习后的一些想法
- 生物信息学是用计算机为生物服务,个人认为核心在于生物,在刚开始的时候不必太过注重计算机相关的东西。
- 比较好的学习方法是了解了基本的理论之后,根据实践的需要去学习具体内容。
- 刚开始不要过分的追求太深入的东西,把它作为个人的拓展会是一个不错的选择。
- 一定要拥有利用搜索引擎和资料解决问题的能力。