生物信息学入门级的常用软件

https://www.zhihu.com/question/23566982

生物信息学是为生物学研究者提供分析工具的学科,渗透到生物学的几乎每一个研究领域。而你要做的是编写软件,而不是学用别人的软件。

十年前的生物信息

  • 做一个 CLUSTALW 序列比对,
  • 用 PHYLIP 算一个进化树,
  • 上 NCBI 做一个 BLAST,

最常用的东西:

  • 1,你需要会用 Linux,会使用 bash
  • 2,高于入门级的统计学知识,以及一门统计语言,比如 R
  • 3,至少一门编程语言,一般来讲 C++, Perl, Python, Java 这几种中的一种。
  • 4,对于你工作的领域,需要懂这方面的生物学知识,也需要知道目前人们在这个领域里都用什么其他软件。
    以上四点必不可少。

其他的知识则取决于你是什么领域。

  • 比如如果你要研发高性能的序列比对软件,则算法和并行计算的知识必不可少。——本人自己算法很渣,所以没有把算啊列在以上必备的知识里。
  • 如果要频繁存取大量数据,则懂得一种数据库必不可少,比如MySQL。

遗传学领域里,目前大部分的生物信息学研究集中在二代测序(High-throughput sequencing)数据的分析工具上。另外做二代基因测序的序列比对(Alignment),现在软件多如牛毛,但最常用的基本还是 bowtie, bwa 等少数几种。

这种数据和大规模运算一般只能在大型服务器上运行,毫无疑问的需要会 Linux 和 bash,以及一些分布式计算的基础知识。

做生物信息的人主要是研究方法学,需要把自己的方法写成软件发表。用生物信息学工具的人则只是用别人的工具而已,发表的文章也就并不是生物信息学的文章,而是你自己领域里的文章,比如群体遗传学。到现在生物的绝大多数领域都需要用其他人写的软件处理大量数据,如果把所有这样的文章都算在生物信息里面,那 80% 的生物学文章得都是生物信息学文章了。

作者:周杰
链接:https://www.zhihu.com/question/23566982/answer/25192621
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

学习使用新软件时,先粗略地把Manual、Readme、软件涉及的文章(包括附件里的内容,往往会提供可用的细节)都过一遍,然后使用样例数据跑跑看。遇到问题不要慌张,善用搜索工具进行检索(英文),你能遇到的大部分别人都遇到过,看看别人的求助贴和讨论内容一般都能解决问题。搜索解决不了问题还可以考虑给作者写邮件,注意清晰描述遇到的情况(描述问题本身就是理清思路的过程),写邮件或者发帖问问题尽量具体、明确一点,同时注意提问的条理和内容的可读性。

作者:王理中
链接:https://www.zhihu.com/question/23566982/answer/25220599
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

必学:1、计算机基础(linux+perl+R 或者 python+matlab) 2、生信基础知识(测序+数据库+数据格式) 3、生信研究领域(全基因组,全转录组,全外显子组,捕获目标区域测序) 4、生信应用领域(肿瘤筛查,产前诊断,流行病学,个性化医疗)分而治之:一、计算机基础,需要看三本书,一步步的学会学通,不需要刻意去找哪个书,一般linux是鸟哥私房菜,perl是小骆驼咯,R是R in action,但是看一本书只能入门,真正想成为菜鸟,必须每个要看五本书以上!我云盘里面有这基本上的高清打印版,大家可以去淘宝打印一下才几十块钱还包邮,对书比较讲究的也可以买正版,也不过是一百多块钱而已!二、生信基础知识,测序方面,在百度文库找十几篇一代二代三代测序仪资料仔细研读,然后去优酷下载各大主流测序仪的动画讲解,再看看陈巍学基因的讲解;数据库先看看三大主流数据库——NCBI,ENSEMBL,UCSC,还有一些也可以了解一些(uniprot,IMGT,KEGG,OMIN,TIGR,GO)同样也是百度文库自己搜索资料,但是这次需要自己去官网一个个页面点击看,一个个翻译成中文理解吃透;数据格式讲起了就多了,这个主要是在项目流程中慢慢学,或者你有机会去上课,不然你看来也是立马忘记的,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等三、生信研究领域,各个领域主要是软件繁多,合起来常用的估计有上百个软件了,一般只有从业五六年以上的人才有可能把它们全部用过一遍,而且这也完全需要项目来训练,而不能仅仅是看看软件手册,但是研究领域最重要的是背后的原理,需要看各大牛的综述。a) 生信基础软件(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)b) snp-calling相关软件(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)c) 基因组相关软件(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)d) 转录组相关软件(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)四、生信应用领域,讲这一块其实已经脱离了生信菜鸟的解释范围了,主要是想说社会上为什么需要搞生信的人才,全是因为在肿瘤筛查,产前诊断,流行病学,个性化医疗等领域有所应用,可以造福人类!!!这方面政策不确定,产业不定型,所以也这绝对是蓝海,但是也绝对不会有现成的资料直接培训人才,我们必须关注各种微信公众号,逛各种测序,医学相关论坛,紧跟业界精英的脚本,同时追着大牛的文献阅读,如此这般才能保住菜鸟的身份!

作者:曾健明
链接:https://www.zhihu.com/question/23566982/answer/41832167
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

你可能感兴趣的:(生物信息学入门级的常用软件)