DeepARG——一种基于深度学习更加准确预测ARG的方法

DeepARG——一种基于深度学习更加准确预测ARG的方法

本文介绍的是发表于Microbiome名为DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data的文章,截至本文投稿已被引高达388次
DeepARG——一种基于深度学习更加准确预测ARG的方法_第1张图片

背景

以往ARG的识别鉴定通常是根据比对现有数据库的序列并设置 "best hits "来确定或预测的。但是这种方法产生的假阴性率很高。为了解决这种局限性,文章提出了一种深度学习方法,考虑到使用所有已知的ARG类别创建的异同矩阵。两个深度学习模型,DeepARG-SS(针对短序列reads)和DeepARG-LS(针对长序列基因组,开放阅读框ORF)。

方法原理

参考三个数据库:

  • ARDB
  • CARD
  • UNIPROT

合并去冗余
DeepARG——一种基于深度学习更加准确预测ARG的方法_第2张图片预处理和UNIPROT ARGs注释。将来自CARD、ARDB和UNIPROT的抗生素耐药基因合并并聚类以去除重复基因。 然后,利用metadata与ARDB和CARD的抗生素类别名称之间的匹配,对UNIPROT的序列进行注释。

UNIPROT gene构建

ARDB和CARD数据库都包含有助于ARG分类的信息,但序列水平上还没有证据表明UNIPROT基因与抗生素耐药性真正相关。由于这个原因,UNIPROT基因的注释通过它们在CARD和ARDB数据库中的序列同一性被进一步验证。下图展示的就是UNI-gene的构建过程与其不同分类介绍。
DeepARG——一种基于深度学习更加准确预测ARG的方法_第3张图片

Deep learning

CARD和ARDB基因代表已知的ARG,而UNIPROT (High+Mid)基因用于模型的训练和验证。
DeepARG——一种基于深度学习更加准确预测ARG的方法_第4张图片

软件安装与使用

安装

# 创建环境
#使用conda加速器mamba运行
#未安装可执行:conda install -c conda-forge mamba
mamba create -n deeparg python=2.7.18 -y
conda activate deeparg

# 安装diamond
mamba install -c bioconda diamond==0.9.24 -y

# 安装其他依赖项
mamba install trimmomatic vsearch bedtools bowtie2 samtools -y

# 安装DeepARG
pip install deeparg==1.0.1 
#若无法安装使用镜像源这里使用豆瓣源
pip install deeparg==1.0.1 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

# 下载数据库, -o指定下载路径
deeparg download_data -o ./database

使用

示例:

deeparg predict \
    --model LS \
    -i ./test/ORFs.fa \
    -o ./test/X \
    -d /path/to/data/ \
    --type nucl \
    --min-prob 0.8 \
    --arg-alignment-identity 30 \
    --arg-alignment-evalue 1e-10 \
    --arg-num-alignments-per-entry 1000

主要参数设置:

–model LS和SS两种方式
-i 输入文件
-o 输出文件
-d 数据库位置
–type 核苷酸nucl还是氨基酸prot,默认nucl

输出结果

四个文件:

x.mapping.ARG最终的注释结果文件
x.mapping.potential.ARG预测后可能还含有 ARG-like sequences但还需验证
x.align.daa.tsv和x.align.daa是比对的结果文件

参考

[1] https://bitbucket.org/gusphdproj/deeparg-ss/src/master/README.md

更多的最新最全内容欢迎关注公众号:生信指南

你可能感兴趣的:(ARG,基因组,深度学习,人工智能,学习方法,linux)