如何删除有90%以上一致性的序列

如何删除有90%以上一致性的序列

学习是个漫长的过程,每次遇到不会的总想要把它收藏起来,今天就是碰到了不熟悉的CD-HIT,就各种百科,各种查找资料,就随手把笔记记录下来,方便日后和大家交流学习。日后再做更完整的补充。
写在前面的话:
本人是一枚生物学的学生,由于对生物信息学特别感兴趣,于是想自学生物信息学(新手莫怪)
。了解到生物信息学要有编程基础,尤其是要会一门编程语言,例如:R语言、Python、Perl等,还要熟悉Linux系统,作为生信小白,听说Python挺简单的,于是就自学了Python,花了两天时间了解了Python的基础语法后,想做个练习题试试手(实践是检验真理的唯一标准)。

生物信息学中有一个相当普遍的任务 : 序列去冗余。更精确地说,要生成另一组一致性水平不高于临界值(如 90%) 的序列。这并不像听起来那么容易,因为这不仅需要一组相似序列,还需要确定选择一组相似序列中的哪一个序列的规则。在过去的十年中,已经有几个用于快速序列去冗余的算法。例如,其中一个经过了良好优化并易于使用的工具 CD-HIT。


CD-HIT(可容错的高同源性聚类数据库)

该程序非常快速,基于用户定义的相似性阈值对蛋白质序列进行聚类,需要输入一纽 FASTA 格式的序列,并返回两个文件 :一 个是聚类列表,另一个是所聚各类的代表序列 。 程序可以在 http://bioinformatics.org/cd-hit/下 载,安装说明手册也可在网站获得。程序安装完毕后,运行程序的命令格式如下:
cd-hit -i redundant set -0 nr-90 -c 0.9 -n 5
redundant_set 是输入的文件名,nr-90 是输出, 0.9 代表 90%的同源性,5是单词的大小(手册中提供了选择单词大小的建议) ,还有很多其他的选项可供选择。

日常结尾:
虽然这是个小小的计算程序,但对于初学者的我来说每一次对原代码的升级改造,哪怕是读懂后的注释都感觉是一次进步提升,总之代码虽小,动手最重要!希望更多学习Python的爱好者不要像我一样眼高手低,学习编程就是要,思考,敲码,思考,敲码,敲码,再敲码!!

你可能感兴趣的:(如何删除有90%以上一致性的序列)