antiSMASH 使用

1. antiSMASH 简介

antiSMASH 用于寻找次级代谢基因簇。一般情况下,参与次级代谢途径中生物合成酶的基因在染色体上成簇排列。基于指定类型的 profile hidden Markov models, antiSMASH 能准确鉴定所有已知的次级代谢基因簇。
antiSMASH 的使用说明:http://antismash.secondarymetabolites.org/help.html
antiSMASH 的参考文献:antiSMASH 2.0 — a versatile platform for genome mining of secondary metabolite producers.
Kai Blin, Marnix H. Medema, Daniyal Kazempour, Michael A. Fischbach, Rainer Breitling, Eriko Takano, & Tilmann Weber
Nucleic Acids Research (2013), doi: 10.1093/nar/gkt449.

2. 次级代谢基因簇简介

在 antiSMASH 中,将次级代谢基因簇分为了 24 类。
最常见的次级代谢基因簇是 type I, II and III polyketides synthase(PKS) 和 non-ribosomal peptides synthase(NRPS)。例如:四环素、大环内酯类、安莎类、聚醚类由 PKS 途径合成;beta-内酰胺类、多肽类、糖肽类由 NRPS 途径合成。
此外,还有 heterocyst glycolipid-like polyketides, terpenes, lantibiotics, bacteriocins, β-lactams, aminoglycosides/aminocyclitols, aminocoumarins, siderophores, ectoines, butyrolactones, indoles, nucleosides, phosphoglycolipids, melanins, oligosaccharide, furans, homoserine lactones, thiopeptides, phenazines, others.

3. antiSMASH 安装

首先要安装 ncbi-blast+, hmmer3.0, hmmer2.3.2(hmmpfam), glimmer3, GlimmerHMM 3.0.2, muscle.
安装 ncbi-blast+

$ wget ftp://ftp.ncbi.nih.gov/blast/executables/LATEST/ncbi-blast-2.2.29+-x64-linux.tar.gz
$ tar zxf ncbi-blast-2.2.29+-x64-linux.tar.gz -C /opt/biosoft/
$ echo 'PATH=$PATH:/opt/biosoft/ncbi-blast-2.2.29+/bin/' >> ~/.bashrc

安装 hmmer3.0

$ wget http://selab.janelia.org/software/hmmer3/3.0/hmmer-3.0.tar.gz
$ tar zxf hmmer-3.0.tar.gz
$ cd hmmer-3.0
$ ./configure --prefix=/opt/biosoft/hmmer-3.0/ && make -j 4 && make install
$ echo 'PATH=$PATH:/opt/biosoft/hmmer-3.0/bin/' >> ~/.bashrc

安装 hmmer2.3.2

$ wget http://selab.janelia.org/software/hmmer/2.3.2/hmmer-2.3.2.tar.gz
$ tar zxf hmmer-2.3.2.tar.gz
$ cd hmmer-2.3.2
$ ./configure --prefix=/opt/biosoft/hmmer-2.3.2/ && make -j 4 && make check
$ sed -e "s#\(cp src/\$\$file \$(BINDIR)/\);#\1\$\${file}2;#" -i Makefile
$ make install
$ echo 'PATH=$PATH:/opt/biosoft/hmmer-2.3.2/bin/' >> ~/.bashrc

安装 glimmer3

$ wget http://ccb.jhu.edu/software/glimmer/glimmer302.tar.gz
$ tar zxf glimmer302.tar.gz -C /opt/biosoft/
$ cd /opt/biosoft/glimmer3.02
$ wget https://bitbucket.org/antismash/antismash2/downloads/Allow-glimmer-to-compile-on-g-4.4.3.patch -O Allow-glimmer-to-compile-on-g-4.4.3.patch
$ patch -p1 < Allow-glimmer-to-compile-on-g-4.4.3.patch
$ cd src
$ make -j 4
$ echo 'PATH=$PATH:/opt/biosoft/glimmer3.02/bin/' >> ~/.bashrc

安装 GlimmerHMM 3.02

$ wget ftp://ccb.jhu.edu/pub/software/glimmerhmm/GlimmerHMM-3.0.2.tar.gz
$ tar zxf GlimmerHMM-3.0.2.tar.gz -C /opt/biosoft/
$ cd /opt/biosoft/GlimmerHMM/sources
$ make
$ cp glimmerhmm ../bin/
$ echo 'PATH=$PATH:/opt/biosoft/GlimmerHMM/bin/' >> ~/.bashrc

安装 Muscle

$ wget http://www.drive5.com/muscle/downloads3.8.31/muscle3.8.31_src.tar.gz
$ tar zxf muscle3.8.31_src.tar.gz -C /opt/biosoft/
$ cd /opt/biosoft/muscle3.8.31/src
$ make -j 4
$ mkdir ../bin/
$ cp muscle ../bin/
$ echo 'PATH=$PATH:/opt/biosoft/muscle3.8.31/bin/' >> ~/.bashrc
$ source ~/.bashrc

安装一些系统软件:

$ sudo yum install -y perl-Archive-Tar python-pip python-virtualenv git java-1.7.0-openjdk python-devel libxslt-devel libxml2-devel gcc-c++ patch glibc-static cairo
$ wget http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm
$ sudo rpm -Uvh epel-release-6-8.noarch.rpm

安装 antiSMASH。可以不需要以上所有步骤,直接进行下面的安装(需要联网)。以上步骤则是将所有的程序安装到 /opt/biosoft 目录下,以便于管理生物信息学软件。

$ mkdir /opt/biosoft/antiSMASH/
$ cd /opt/biosoft/antiSMASH/
$ wget https://bitbucket.org/antismash/antismash2/downloads/install_centos.sh -O install_centos.sh
此文件中有处错误,导致下载不了 antiSMASH 的软件包。
$ perl -p -i -e 's#\"\${ANTISMASH_BASE}\${ANTISMASH_TARBALL}\"#\${ANTISMASH_BASE}/\${ANTISMASH_TARBALL} -O \${ANTISMASH_BASE}#' install_centos.sh
此脚本适合于 CentOS 6.4 系统,如果是 CentOS 6.5 系统, 则要多进行下一步
$ perl -p -i -e 's/6_4/6_5/' install_centos.sh
$ sh install_centos.sh
$ echo 'PATH=$PATH:/opt/biosoft/antiSMASH/' >> ~/.bashrc
$ source ~/.bashrc
$ run_antismash

4. antiSMASH 使用

4.1 注意事项

antiSMASH 支持 Fasta/Genbank/EMBL (要分别以 .fasta .gbk .embl 作为后缀以利于程序识别)格式的文件作为输入。推荐使用 Genbank 格式文件作为输入。该文件包含了编码蛋白基因的注释信息。否则,以 fasta 文件作为输入,程序则需要调用 Glimmer3 和 GlimmerHMM 来进行基因预测后再进行次级代谢基因簇的鉴定。
使用 –clusterblast 和 –subclusterblast 参数,antiSMASH 使用 blastp 来将氨基酸序列比对到已知的次级代谢 clusters 或 subclusters 上,来寻找 query 序列中的基因簇。网页版中默认使用此参数。
使用 –smcogs 参数,antiSMASH 能分析次级代谢基因家族 (smCOGs),并使用其家族的基因(最多100个)构建系统发育树。网页版中默认使用此参数。
使用 –full-hmmer 参数, antiSMASH 将进行全基因组的 PFAM 分析,寻找次级代谢 domains 出现过于频繁的基因组区域。这样能找到一些 clusterblast 步骤中漏掉的基因簇。网页版中默认使用此参数。

4.2 常用例子

$ run_antismash --clusterblast --subclusterblast --smcogs --full-hmmer species.gbk

结果文件生成于 species 文件夹下。点击 index.html 进行结果的网页查看。
有关于基因组 genbank 文件的生成,可以使用 tbl2asn 软件进行生成。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据