文献信息:
文献:Interpreting k-mer–based signatures for antibiotic resistance prediction
中文:解释基于k-mer信号的抗生素耐药性预测
杂志:gigascience
单位:法国某单位
时间:2020.10.17
摘要:
背景
近年来出现了几种基于k- merk的方法,旨在根据细菌的全基因组序列预测其表型特征。虽然在预测性能方面常常令人信服,但基本模型通常不能直接解释,实际的遗传决定因素与其作为k-mers的翻译之间的相互作用通常很难解释。
结果
我们提出了一种简单且计算效率高的策略,允许人们处理监督机器学习模型中基于k-mer的表示法固有的高相关性,从而产生简洁且易于解释的签名。我们证明这个方法的好处的任务预测的抗生素耐药性肺炎克雷伯菌菌株的基因组,我们的方法会导致签名定义为加权的线性组合遗传元素可以很容易地确定为真正的抗生素耐药性决定因素,与先进的预测性能。
结论
通过提高基于基因组k-mer的抗生素耐药性预测模型的可解释性,我们的方法提高了它们的临床效用,因此将促进临床医生和微生物学家在常规诊断中采用它们。虽然抗生素耐药性是激励应用,这种方法是通用的,可以调换到任何其他细菌特性。可以在https://gitlab.com/biomerieux-data-science/clustlasso获得实现我们方法的包。
一、下载、安装clustlasso
1 windows环境
rJava安装包时踩过的坑和应对策略
准备1:windows R 4.0.3
准备2:gitlab中下载clustlasso zip包,并解压到document(R工作环境)
安装:
install.packages("./clustlasso-master", repos=NULL, type="source")
install.packages("glmnet")
install.packages("ROCR")
install.packages("RColorBrewer")
BiocManager::install("Biobase")
install.packages("NMF")
library("glmnet")
library("ROCR")
library("RColorBrewer")
library("NMF")
library("Biobase")
install.packages("./clustlasso-master", repos=NULL, type="source")
library("clustlasso")
2 linux环境
准备1:安装miniconda3,conda创建r403环境并安装R 4.0.3
准备2:gitlab中下载clustlasso zip包,并解压到document(R工作环境)
install.packages("./clustlasso-master", repos=NULL, type="source")
# ERROR: dependencies ‘glmnet’, ‘Matrix’, ‘ROCR’, ‘RColorBrewer’, ‘NMF’ are not available for package ‘clustlasso’
# The downloaded source packages are in ‘/tmp/RtmpqB7wbK/downloaded_packages’
install.packages("glmnet")
install.packages("Matrix")
install.packages("ROCR")
install.packages("RColorBrewer")
install.packages("NMF")
# ERROR: dependency ‘Biobase’ is not available for package ‘NMF’
library("BiocManager")
BiocManager::install("Biobase")
install.packages("NMF")
install.packages("./clustlasso-master", repos=NULL, type="source")
library("clustlasso")
二、下载、安装dbgwas
地址:https://gitlab.com/leoisl/dbgwas#compiling
1 git下载,source安装 default
GCC 4.8.2+
cmake v3.6+
make
zlib 1.2.11+
git
# 两个问题
# 1 gcc
gcc -v # 版本低
export PATH=/route/.conda/envs/bioenv/bin:$PATH # 一次性,也可添加到.bashrc最后,每次使用source即可
gcc -v
g++ -v
# 2 zlib
which zlib # nothing
wget -c http://www.zlib.net/fossils/zlib-1.2.11.tar.gz
tar -zxvf zlib-1.2.11.tar.gz
cd zlib-1.2.11
source指定目录安装的两种方法:
1 在configure是执行路径
2 在make install时指定路径
./configure # 配置
# Building shared library libz.so.1.2.11 with /hwfssz1/ST_META/PN/hutongyuan/software/miniconda3/envs/r403/bin/x86_64-conda-linux-gnu-cc.
make # 根据configure配置信息生成“二进制文件”
make DESTDIR=/home/hutongyuan/.local install
# 把生成的二进制文件复制到系统指定目录
#######
# 或者 #
#######
./configure --prefix=/home/hutongyuan/.local
make
make install
#安装结果
#/home/hutongyuan/.local/include/zlib.h
#/home/hutongyuan/.local/share/man/man3/zlib3
which zlib #nothing
whereis zlib
# zlib: /usr/include/zlib.h /usr/share/man/man3/zlib.3.gz
zlib的安装与使用
通过实践和阅读上文,我觉得zlib是c语言的东西,安装后本就没有bin可执行文件。
git clone --recursive https://gitlab.com/leoisl/dbgwas.git
cd dbgwas
mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=Release ..
make
2 预编译二进制下载(翻墙),使用 success
Download the latest binary here:
v0.5.4: https://www.dropbox.com/s/s9oojqfl1kgi4l5/DBGWAS-0.5.4-Linux-precompiled.tar.gz?dl=1
Previous versions:
0.5.2: https://www.dropbox.com/s/gf6n4ibcakcyo5k/DBGWAS-0.5.2-Linux-precompiled.tar.gz?dl=1
./DBGWAS -help
3 安装R依赖
install.packages("ape")
install.packages("phangorn")
# install.packages("https://raw.githubusercontent.com/sgearle/bugwas/master/build/bugwas_1.0.tar.gz", repos=NULL, type="source")
# 在线安装失败,翻墙下载本地安装
system("tar -zxvf bugwas_1.0.tar.gz")
install.packages("./bugwas", repos=NULL, type="source")
library("ape")
library("phangorn")
library("bugwas")
三、clustlasso-dbgwas-integration流程
地址:https://gitlab.com/biomerieux-data-science/clustlasso-dbgwas-integration
脚本:https://gitlab.com/biomerieux-data-science/clustlasso-dbgwas-integration/-/tree/master/src