1. RAxML 简介
RAxML (Random Axelerated Maximum Likelikhood) 能使用多线程或并行化使用最大似然法构建进化树。
网页版工具:http://epa.h-its.org/raxml/submit_single_gene
参考文献:RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies
2. RAxML 下载与安装
$ wget https://github.com/stamatak/standard-RAxML/archive/v8.2.12.tar.gz -O ~/software/RAxML-v8.2.12.tar.gz $ tar zxf ~/software/RAxML-v8.2.12.tar.gz -C /opt/biosoft/ $ mv /opt/biosoft/standard-RAxML-8.2.12/ /opt/biosoft/RAxML-8.2.12/ $ cd /opt/biosoft/RAxML-8.2.12/ $ make -f Makefile.SSE3.PTHREADS.gcc -j 4 $ rm *.o $ make -f Makefile.AVX.PTHREADS.gcc -j 4 $ rm *.o $ source ~/.bashrc.mpich $ make -f Makefile.SSE3.HYBRID.gcc -j 4 $ rm *.o $ make -f Makefile.AVX.HYBRID.gcc -j 4 $ rm *.o $ chmod 755 /opt/biosoft/RAxML-8.2.12/usefulScripts/* $ echo 'PATH=$PATH:/opt/biosoft/RAxML-8.2.12/' >> ~/.bashrc $ source ~/.bashrc
2. RAxML 的使用
RaxML 软件包中带有一个 PDF 格式的 Manual 文档,介绍得非常详细。
2.1 RaxML 版本的选择
Sequential 版本适合于中小型的数据; PThreads 版本适合于长序列或多条序列;MPI 版本适合于较大(100~1000) bootstraps 的运行。
2.2 常用例子与参数
常用例子:
简单快速方式 $ raxmlHPC -f a -x 12345 -p 12345 -# 100 -m PROTGAMMALGX -s ex.phy -n ex -T 20 并行化软件支持,能最快速计算。并行化20个任务,每个任务使用8线程,能使用全部160线程计算资源: $ /opt/sysoft/mpich2-1.5/bin/mpirun -np 20 raxmlHPC -f a -x 12345 -p 12345 -# 100 -m PROTGAMMALGX -s ex.phy -n ex -T 8
RAxML 的参数非常多,设置非常复杂,上述常用例子的参数为:
-f a 此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行快速 Bootstrap 分析并搜索最佳得分的 ML 树。 -x 12345 指定一个 int 数作为随机种子,以启用快速 Bootstrap 算法。 -p 12345 指定一个随机数作为 parsimony inferences 的种子。 -# 100 指定 bootstrap 的次数。 -m PROTGAMMALGX 指定核苷酸或氨基酸替代模型。PROTGAMMALGX 的解释: "PROT" 表示氨基酸替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估计碱基频率。 -s ex.phy 指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。 -n ex 输出文件的后缀为 .ex 。 -T 20 指定多线程运行的 CPUs 。
2.3 结果文件
RAxML_bootstrap.ex bootstrapped trees RAxML_bestTree.ex 最佳得分 ML 树 RAxML_bipartitions.ex 有 bootstrap 分值支持的最佳得分树,分值在 node 上。 RAxML_bipartionsBranchLabels.ex 有 bootstrap 分值支持的最佳得分树, 分值在 branch 上。FigTree不能识别此文件。