蛋白质多序列CD-HIT处理

流程:

1:蛋白质去除标签,筛选为单一标号(GI、ACESSION)

2:登录批量下载蛋白质地址https://www.ncbi.nlm.nih.gov/sites/batchentrez?db=Protein,上传文件,点击RETRIEVE按钮开始匹配

3:点击右上角SEND TO:选项进行下载,注意选择保存格式(保存为FASTA格式)

4:打开CD-HIT官网http://weizhongli-lab.org/cd-hit/,选择网页服务,根据需要选择CD-HIT类型

5:选择底端CD-HIT UCSC,根据需求选择,设置阈值,提交

6:页面自动跳转,可手动刷新

7:建议先预览文件,避免结果错误

8:下载名称为xxxx,fasta.1文件,即处理后文件

9:将文件重命名为xxxxx.fasta,即为正常可打开的fasta文件

你可能感兴趣的:(蛋白质多序列CD-HIT处理)