使用silix做序列聚类

最近需要做基因聚类,查找一些文献后多使用clans、mcl、orthomcl等。但是以上多针对蛋白,于是又继续搜索后发现一个不错的软件,名叫siLix,核算、蛋白均可使用。


以下是安装和使用过程 
文献:http://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-116
软件:ftp://pbil.univ-lyon1.fr/pub/logiciel/silix/
依赖:Boost、MPI


若想使用并行,需要安装MPI;若想最大化性能,需要安装Boost。


软件版本 silix-1.2.10.tar.gz
系统版本 Ubuntu 14.04.4 LTS
安装:
1 安装Boost:
>$ sudo apt-get install libboost-all-dev
2 安装软件:
>$ tar xf silix-1.2.10.tar.gz
>$ cd silix-1.2.10
>$ ./configure --precix==/your/path/to/silix --enable-verbose  --enable-mpi --enable-hash 
// --prefix==/your/path/to/silix 指定安装路径(可选,若为默认,可能需要root权限)
// --enable-verbose 使用冗余模式 (可选)
//  --enable-mpi 使用并发模式(可选)
//  --enable-hash 使用Boost::unordered_map 哈希表(可选)
>$ make && make check && make install
// 若无报错,则安装成功,安装不成功一般是因为依赖的库没有装好,比如Boost
3 软件使用:
软件安装时,有两种模式。一种是无并发模式;另一种是并发模式(使用 --enable-mpi)。
3.0 参数详解
silix, parallel ultra fast SIngle LInkage Clustering of Sequences
General use:
  silix [OPTIONS]


From sequences in fasta format and blast tabulated results, display sequence families.
'FASTAFILE' respects the fasta format (no blank lines),
'MULTIBLASTFILE' is a text file containing multiple filenames, each line of these files is a blast hit (option -outfmt 6).
Return a [prefixed] family id for each sequence id.
Generic options:
  -h [ --help ]         Display this information
  -v [ --version ]      Display version information


Configuration:
  -f [ --prefix ] arg          Prefix for family ids (none by default)  // 设置家族名称
  -p [ --partial ] arg         File containing partial sequence ids, one per line (none by default)  // 存放片段序列的ID
  -i [ --ident ] arg (=0.35)   Min % identity to accept blast hits for building families (in [0,1])  // 用于创建家族的最低identity
  -r [ --overlap ] arg (=0.80) Min % overlap to accept blast hits for building families (in [0,1])  // 用于创建家族的最低overlap
  -l [ --minplen ] arg (=100)  Min length to accept partial sequences in families  //  接受为可用片段的最小长度
  -m [ --minpov ] arg (=0.50)  Min % overlap to accept partial sequences in families (in [0,1])  // 与-l 类似,但使用比例
  -n [ --net ]                 Activate streaming of positively filtered pairs of proteins into files [filenames automatically generated using the prefixes found in MULTIBLASTFILE]  // 是否创建包含可接受的成对的序列ID。


3.1 无并发模式下使用如下:
// 基本命令
silix [OPTIONS]
$> silix  seq.fasta blastall.out -f FAM > seq.fnodes
// 获取帮助
$> silix --help  
$> silix -h
3.2 有并发模式下使用:
mpirun -np NP silix [OPTIONS]

$> mpirun -np 4 silix  seq.fasta filenames.txt -f FAM > seq.fnodes // filenames.txt 包含所有blast输出文件的文件名。

3.4 使用实例:

你可能感兴趣的:(NGS学习)