CD-HIT去除冗余序列

1、简介

CD-HIT是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类以去除冗余的序列,一般用于构建非冗余的数据集用于后续的实验分析。
基本思路是首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第一个序列类,然后依次对序列进行处理,如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中,否则形成新的序列类。

2. 下载与安装

cd-hit下载网址为https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz,需要在linux系统(如果你的电脑是Windows的,可以装一个虚拟机,并安装Linux系统 http://c.biancheng.net/view/714.html)下操作。解压压缩包
CD-HIT去除冗余序列_第1张图片
进入软件所在路径直接输入命令:make,进行编译即可。
CD-HIT去除冗余序列_第2张图片3.文件准备

从NCBI官网上下载了三个蛋白质序列作为测试序列。
然后执行cat a.fasta b.fasta c.fasta > all.fasta将序列合并为一个序列。
在这里插入图片描述CD-HIT去除冗余序列_第3张图片
其中a.fasta,b.fasta,c.fasta为fasta格式的三个样品基因或蛋白序列,all.fasta为汇总后的序列,在分析中作为cd-hit的输入序列。

4.Cd-hit运行、分析

想要执行此命令cd-hit -i all.fasta -o new.fa -c 0.8 -aS 0.8 -d 0
需要先要安装cd-hit,不然会报错。
安装cd-hit的命令:sudo apt install sd-hit
CD-HIT去除冗余序列_第4张图片cd-hit运行时用很多参数可以进行调整设置,其运行命令为(参数仅为示例):
cd-hit -i all.fasta -o new.fa -c 0.8 -aS 0.8 -d 0
面简单介绍一下重要的几个参数:
-i:输入文件,fasta格式。
-o:输出文件前缀,输出文件有两个,分别为fasta格式序列文件和以.clstr结尾的聚类信息文件。
-c:较短序列比对到长序列的bp与自身bp数的比值超过该数值则聚类为一组,默认为0.9。
-d:聚类信息文件中各个聚类组中序列名的长度,设为0则将取完整序列名。
-M 16000,16GB RAM。
-T 使用的线程数。
-aL:控制代表序列比对严格程度的参数,默认为0,若设为0.8则表示比对区间要占到代表(长)序列的80%。
-aS:控制短序列比对严格程度的参数,默认为0,若设为0.8则表示比对区间要占到短序列的80%。

CD-HIT去除冗余序列_第5张图片
cd-hit有两个输出文件:一个是只含有所有代表序列(即去冗余后的序列)的fasta文件,其格式如图:
CD-HIT去除冗余序列_第6张图片格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符(通常60个字符)。序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
另一个是以.clstr结尾的聚类信息文件,其格式如图
CD-HIT去除冗余序列_第7张图片
以“>”开头的是一个聚类组。每组下面按序号排列,如上图中Cluster 1组有2个聚类序列。每个聚类序列有一个百分比或 * ,百分比代表该序列与代表序列的相似度,* 代表该序列即为代表序列。
图中出现的100.00%是因为我使用的a.fasta文件和c.fasta文件的序列是相同的。

你可能感兴趣的:(CD-HIT去除冗余序列)