RTL8188CE 802.11b无线网卡驱动的安装

lspci

03:00.0 Network controller: Realtek Semiconductor Co., Ltd. RTL8188CE 802.11b/g/n WiFi Adapter (rev 01)
$ lspci -nn|grep -i net
03:00.0 Network controller [0280]: Realtek Semiconductor Co., Ltd. RTL8188CE 802.11b/g/n WiFi Adapter [10ec:8176] (rev 01)
0c:00.0 Ethernet controller [0200]: Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 07)

EL Repo

在网站http://elrepo.org/tiki/DeviceIDs上搜索10ec:8176

$ rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
$ rpm -Uvh http://www.elrepo.org/elrepo-release-6-6.el6.elrepo.noarch.rpm
$ yum search  kmod-r8192ce
$ yum install kmod-r8192ce

使用 RAxML 构建进化树

1. RAxML 简介

RAxML (Random Axelerated Maximum Likelikhood) 能使用多线程或并行化使用最大似然法构建进化树。
网页版工具:http://epa.h-its.org/raxml/submit_single_gene
参考文献:RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies

2. RAxML 下载与安装

$ wget https://github.com/stamatak/standard-RAxML/archive/v8.2.12.tar.gz -O ~/software/RAxML-v8.2.12.tar.gz
$ tar zxf ~/software/RAxML-v8.2.12.tar.gz -C /opt/biosoft/
$ mv /opt/biosoft/standard-RAxML-8.2.12/ /opt/biosoft/RAxML-8.2.12/
$ cd /opt/biosoft/RAxML-8.2.12/
$ make -f Makefile.SSE3.PTHREADS.gcc -j 4
$ rm *.o
$ make -f Makefile.AVX.PTHREADS.gcc -j 4
$ rm *.o
$ source ~/.bashrc.mpich
$ make -f Makefile.SSE3.HYBRID.gcc -j 4
$ rm *.o
$ make -f Makefile.AVX.HYBRID.gcc -j 4
$ rm *.o
$ chmod 755 /opt/biosoft/RAxML-8.2.12/usefulScripts/*
$ echo 'PATH=$PATH:/opt/biosoft/RAxML-8.2.12/' >> ~/.bashrc
$ source ~/.bashrc

2. RAxML 的使用

RaxML 软件包中带有一个 PDF 格式的 Manual 文档,介绍得非常详细。

2.1 RaxML 版本的选择

Sequential 版本适合于中小型的数据; PThreads 版本适合于长序列或多条序列;MPI 版本适合于较大(100~1000) bootstraps 的运行。

2.2 常用例子与参数

常用例子:

简单快速方式
$ raxmlHPC ­-f a ­-x 12345 ­-p 12345 ­-# 100 ­-m PROTGAMMALGX ­-s ex.phy ­-n ex -T 20

并行化软件支持,能最快速计算。并行化20个任务,每个任务使用8线程,能使用全部160线程计算资源:
$ /opt/sysoft/mpich2-1.5/bin/mpirun -np 20 raxmlHPC ­-f a ­-x 12345 ­-p 12345 ­-# 100 ­-m PROTGAMMALGX ­-s ex.phy ­-n ex -T 8

RAxML 的参数非常多,设置非常复杂,上述常用例子的参数为:

-f a
此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行快速 Bootstrap 分析并搜索最佳得分的 ML 树。
-x 12345
指定一个 int 数作为随机种子,以启用快速 Bootstrap 算法。
-p 12345
指定一个随机数作为 parsimony inferences 的种子。
-# 100
指定 bootstrap 的次数。
-m PROTGAMMALGX
指定核苷酸或氨基酸替代模型。PROTGAMMALGX 的解释: "PROT" 表示氨基酸替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估计碱基频率。
-s ex.phy
指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。
-n ex
输出文件的后缀为 .ex 。
-T 20
指定多线程运行的 CPUs 。

2.3 结果文件

RAxML_bootstrap.ex           bootstrapped trees
RAxML_bestTree.ex            最佳得分 ML 树
RAxML_bipartitions.ex        有 bootstrap 分值支持的最佳得分树,分值在 node 上。
RAxML_bipartionsBranchLabels.ex 有 bootstrap 分值支持的最佳得分树, 分值在 branch 上。FigTree不能识别此文件。

使用 PhyML 构建进化树

1. PhyML 简介

使用 PhyML 构建最大似然树。
参考文献:New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies: Assessing the Performance of PhyML 3.0

2. PhyML 的下载和安装

$ wget http://www.atgc-montpellier.fr/download/binaries/phyml/PhyML-3.1.zip
$ unzip PhyML-3.1.zip
$ mv PhyML-3.1 /opt/biosoft/
$ ln -s /opt/biosoft/PhyML-3.1/PhyML-3.1_linux64 /opt/biosoft/PhyML-3.1/PhyML
$ echo 'PATH=$PATH:/opt/biosoft/PhyML-3.1/' >> ~/.
$ source ~/.bashrc

3. PhyML 的使用

PhyML 的输入文件为 phylip 格式。
常用例子:

$ PhyML -i proteins.phy -d aa -b 1000 -m LG -f m -v e -a e -o tlr

常用参数:

-i seq_file_name
输入文件,phylip 格式的多序列比对结果。
-d data_type default:nt
该参数的值为 nt, aa 或 generic。
-b int
设置 bootstrap 次数。
-m model
设置替代模型。 核酸的模型有: HKY85(默认的), JC69, K80, F81, TN93, GTR ; 氨基酸的模型有:LG (默认的), WAG, JTT, MtREV, Dayhoff, DCMut, RtREV, CpREV, VT, Blosum62, MtMam, HIVw, HIVb 。
-f e,m or fA,fC,fG,fT
设置频率计算的方法。 e 表示使用比对结果中不同氨基酸或碱基出现的频率来计算; m 表示使用最大似然法计算碱基频率,或使用替换模型计算氨基酸频率; fA,fC,fG,fT 则是 4 个浮点数,表示 4 中碱基的频率,仅适合核酸序列。
-v prop_invar
设置不变位点的比例,是一个[0,1]区间的值。或者使用 e 表示程序获得其最大似然估计值。
-a gamma
gamma 分布的参数。此参数值是个正数,或者使用 e 表示程序获得其最大似然估计值。在 ProtTest 软件给出的最优模型中含有 G 时,使用该参数。
-o params
参数优化的选项。t 表示对 tree topology 进行优化; l 表示对 branch length 进行优化; r 表示对 rate parameters 优化。
params=tlr 这表示对 3 者都进行优化。 params=n 表示不进行优化。

4. PhyML 结果

PhyML 的输出结果为:

proteins.phy_phyml_tree.txt        :    最大似然法构建的进化树
proteins.phy_phyml_boot_stats.txt  :    bootstrap 的统计信息
proteins.phy_phyml_boot_trees.txt  :    bootstrap 树
proteins.phy_phyml_stats.txt       :    程序运行的中的参数和结果统计

使用 ProtTest 来选择最优氨基酸替代模型

1. ProtTest 简介

ProtTest 用来进行最优氨基酸替代模型的选择。相应的,适用于核苷酸的软件是 jModeltest。
ProtTest 通过 PhyML 对进化树和模型参数的最大似然估计,通过 AIC, BIC 分值或 DT 来寻找最佳模型。分值越小越优。
ProTest 3.2 版本包含 15 种不同类型的 rate matrices;考虑到位点的 rate variation (+I: invariable sites; +G: gamma-distributed rates) 和 observed amino acid frequencies (+F), 共有 120 种不同的模型。
ProtTest 官网:https://code.google.com/p/prottest3/
从此处下载该软件。可能需要设置代理后下载。
参考文献:ProtTest 3: fast selection of best-fit models of protein evolution

2. ProtTest 下载和安装

$ tar zxf prottest-3.4-20140123.tar.gz -C /opt/biosoft
$ cd /opt/biosoft/prottest-3.4-20140123
$ echo 'export PROTTEST_HOME=/opt/biosoft/prottest-3.4-20140123' >> ~/.bashrc
查看说明文档:
$ less README

3. ProtTest 的使用

ProtTest 使用 JAVA 编写,有图形化和命令行两种运行模式。

3.1 图形化界面使用

必须要进入到程序的所在的目录运行程序以启动图形化界面
$ cd /opt/biosoft/prottest-3.4-20140123/runXProtTestHPC.sh
$ runXProtTestHPC.sh

启动 JAVA 界面后,点击 File–Load Alignment, 上传多序列比对结果;然后点击 Analysis–Compute likehood scores, 选择所使用的线程数,以及候选模型的选择,和计算 likelihood 的 topology;然后点击 Compute, 进行计算,所需要消耗的实际有点长;计算完毕后,点击 Selection–Results 来查看结果。通过 AIC, BIC, AICc 和 DT 来查看其得分,点击表格的第1行进行排序,寻找分值最小的模型作为最优氨基酸替代模型。

3.2 命令行运行

常用例子:

不加参数运行,则给出帮助文档:
java -jar /opt/biosoft/prottest-3.4-20140123/prottest-3.4.jar

常用的命令行:
java -jar /opt/biosoft/prottest-3.4-20140123/prottest-3.4.jar -i proteins.phy -all-distributions -F -AIC -BIC -tc 0.5 -threads 24 -o prottest.out

ProtTest 的常用参数:

-i alignment_filename
必须参数,输入多序列比对结果文件。
-o output_filename
输出的文件名。不设置,则默认输出到标准输出。
-[matrix]
指定需要分析的 matrix 。 该 matrix 可以被替换为 JTT LG DCMut MtREV MtMam MtArt Dayhoff WAG RtREV CpREV Blosum62 VT HIVb HIVw FLU 这 15 种 matrix。 若不指定,则默认全选。
-all-distributions
指定 matrix 模型结合 I 或 G 或 I+G
-F
指定 matrix 模型结合 empirical frenquency estimation
-AIC
输出结果中按 AIC (Akaike Information Criterion) 排序
-BIC
输出结果中按 BIC (Bayesian Information Criterion) 排序
-AICC
输出结果中按 AICc (Corrected Akaike Information Criterion) 排序
-DT
输出结果中按 DT (Decision Theory Criterion) 排序
-tc consensus_threshold
输出满足指定阈值的一致树。该值在 0.5~ 1.0 之间。[0.5 = majority rule consensus ; 1.0 = strict consensus]
-threads number_of_threads
使用的 CPU 数。

使用 Gblocks 提取保守序列

1. Gblocks 简介

Gblocks用于从多序列比对结果中提取保守位点,以利于下一步的进化分析。
在线说明文档:http://molevol.cmima.csic.es/castresana/Gblocks/Gblocks_documentation.html
在线服务网站:http://molevol.cmima.csic.es/castresana/Gblocks_server.html

2. Gblocks 安装

$ wget http://molevol.cmima.csic.es/castresana/Gblocks/Gblocks_Linux64_0.91b.tar.Z
$ sudo yum install -y ncompress
$ tar Zxf Gblocks_Linux64_0.91b.tar.Z -C /opt/biosoft/
$ echo 'PATH=$PATH:/opt/biosoft/Gblocks_0.91b/' >> ~/.bashrc
$ source ~/.bashrc

3. Gblocks 使用

Gblosk 有两种使用方式,第一种是交互式的方式(按提示输入文件改变参数),第二种是命令行式(在命令行中输入参数)。
命令行式的常用例子:

使用默认的设置:
$ Gblocks proteins.fasta -t=p
必须是 fasta 文件在前,参数在后。若没有参数,则进入交互式界面。

得到更长的序列:
$ Gblocks proteins.fasta -b4=5 -b5=h

命令行式的常用参数:

-t= default:p
设置序列的类型,可选的值是 p,d,c 分别代表 protein, DNA, Codons 。
-b1= default:( 序列条数的 50% + 1 )
设定保守性位点必须有 >= 该值的序列数。该参数后接一个 integer 数,默认下比序列条数的 50% 大 1.
-b2= default: 序列条数的 85%
确定保守位点的侧翼位点时,其位点必须有 >= 该值的序列数。该值必须要比 -b1 的值要大。
-b3= default: 8
最大连续非保守位点的长度。
-b4= default: 10
保守位点区块的最小长度。该值必须 >=2 。
-b5= default: n
设置允许含有 Gap 位点。可选的值有 n,h,a 分别代表 None, With Half, All 。 当为 h 时,表示
-e= default: -gb
设置输出结果的后缀。

使用 MAFFT 进行多序列比对

1. MAFFT 简介

最经典和广为熟知的多序列比对软件是 clustalw 。 但是现有的多序列比对软件较多,有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。因此,推荐使用 MAFFT 软件进行多序列比对。

2. MAFFT 下载安装

$ wget http://mafft.cbrc.jp/alignment/software/mafft-7.158-without-extensions-src.tgz
$ tar zxf mafft-7.158-without-extensions-src.tgz
$ cd mafft-7.158-without-extensions/core
$ perl -p -i -e 's#PREFIX =.*#PREFIX = /opt/biosoft/mafft#' Makefile
$ perl -p -i -e 's#BINDIR =.*#BINDIR = /opt/biosoft/mafft/bin/#' Makefile
$ make
$ make install
$ echo 'PATH=$PATH:/opt/biosoft/mafft/bin/' >> ~/.bashrc
$ source ~/.bashrc

检测软件是否正确安装
$ cd ../test
$ rehash                                                   # if necessary
$ mafft sample > test.fftns2                               # FFT-NS-2
$ mafft --maxiterate 100  sample > test.fftnsi             # FFT-NS-i
$ mafft --globalpair sample > test.gins1                   # G-INS-1
$ mafft --globalpair --maxiterate 100  sample > test.ginsi # G-INS-i
$ mafft --localpair sample > test.lins1                    # L-INS-1
$ mafft --localpair --maxiterate 100  sample > test.linsi  # L-INS-i
$ diff test.fftns2 sample.fftns2
$ diff test.fftnsi sample.fftnsi
$ diff test.gins1 sample.gins1
$ diff test.ginsi sample.ginsi
$ diff test.lins1 sample.lins1
若 diff 的结果不换回异常,则正确安装。

3. MAFFT 使用

MAFFT 有一些参数,适合不同情况下的多序列比对。
软件输入为 FASTA 格式,默认输出到标准输出。

3.1 较为精确的方法

L-INS-i

最准确的方法。适合于 <200 条序列,且序列长度 <~2000 aa/nt 的比对。

$ mafft –localpair –maxiterate 1000 input [> output]
$ linsi input [> output]

G-INS-i

适合于序列长度相似的多序列比对。序列条数 <200, 序列长度 <~2000 aa/nt 。

$ mafft –globalpair –maxiterate 1000 input [> output]
$ ginsi input [> output]

E-INS-i

适合序列中包含较大的非匹配区域。序列条数 <200, 序列长度 <~2000 aa/nt 。

$ mafft –ep 0 –genafpair –maxiterate 1000 input [> output]
$ einsi input [> output]

3.2 节约速度的方法

FFT-NS-i

减少迭代次数,最大迭代次数减为 2 。

$ mafft --retree 2 --maxiterate 2 input [> output]
$ fftnsi input [> output]

FFT-NS-2

最大迭代次数减为 0 。

$ mafft --retree 2 --maxiterate 0 input [> output]
$ fftns input [> output]

FFT-NS-1

此方法非常快速,适合 >2000 条序列的多序列比对。

$ mafft --retree 1 --maxiterate 0 input [> output]

NW-NS-i

迭代过程中不进行 FFT aproximation

$ mafft --retree 2 --maxiterate 2 --nofft input [> output]
$ nwnsi input [> output]

NW-NS-2

$ mafft --retree 2 --maxiterate 0 --nofft input [> output]
$ nwns input [> output]

NW-NS-PartTree-1

3 个参数都设置为最不消耗时间的类型,适合于 ~10,000 到 ~50,000 条序列的比对。

$ mafft --retree 1 --maxiterate 0 --nofft --parttree input [> output]

antiSMASH 使用

1. antiSMASH 简介

antiSMASH 用于寻找次级代谢基因簇。一般情况下,参与次级代谢途径中生物合成酶的基因在染色体上成簇排列。基于指定类型的 profile hidden Markov models, antiSMASH 能准确鉴定所有已知的次级代谢基因簇。
antiSMASH 的使用说明:http://antismash.secondarymetabolites.org/help.html
antiSMASH 的参考文献:antiSMASH 2.0 — a versatile platform for genome mining of secondary metabolite producers.
Kai Blin, Marnix H. Medema, Daniyal Kazempour, Michael A. Fischbach, Rainer Breitling, Eriko Takano, & Tilmann Weber
Nucleic Acids Research (2013), doi: 10.1093/nar/gkt449.

2. 次级代谢基因簇简介

在 antiSMASH 中,将次级代谢基因簇分为了 24 类。
最常见的次级代谢基因簇是 type I, II and III polyketides synthase(PKS) 和 non-ribosomal peptides synthase(NRPS)。例如:四环素、大环内酯类、安莎类、聚醚类由 PKS 途径合成;beta-内酰胺类、多肽类、糖肽类由 NRPS 途径合成。
此外,还有 heterocyst glycolipid-like polyketides, terpenes, lantibiotics, bacteriocins, β-lactams, aminoglycosides/aminocyclitols, aminocoumarins, siderophores, ectoines, butyrolactones, indoles, nucleosides, phosphoglycolipids, melanins, oligosaccharide, furans, homoserine lactones, thiopeptides, phenazines, others.

3. antiSMASH 安装

首先要安装 ncbi-blast+, hmmer3.0, hmmer2.3.2(hmmpfam), glimmer3, GlimmerHMM 3.0.2, muscle.
安装 ncbi-blast+

$ wget ftp://ftp.ncbi.nih.gov/blast/executables/LATEST/ncbi-blast-2.2.29+-x64-linux.tar.gz
$ tar zxf ncbi-blast-2.2.29+-x64-linux.tar.gz -C /opt/biosoft/
$ echo 'PATH=$PATH:/opt/biosoft/ncbi-blast-2.2.29+/bin/' >> ~/.bashrc

安装 hmmer3.0

$ wget http://selab.janelia.org/software/hmmer3/3.0/hmmer-3.0.tar.gz
$ tar zxf hmmer-3.0.tar.gz
$ cd hmmer-3.0
$ ./configure --prefix=/opt/biosoft/hmmer-3.0/ && make -j 4 && make install
$ echo 'PATH=$PATH:/opt/biosoft/hmmer-3.0/bin/' >> ~/.bashrc

安装 hmmer2.3.2

$ wget http://selab.janelia.org/software/hmmer/2.3.2/hmmer-2.3.2.tar.gz
$ tar zxf hmmer-2.3.2.tar.gz
$ cd hmmer-2.3.2
$ ./configure --prefix=/opt/biosoft/hmmer-2.3.2/ && make -j 4 && make check
$ sed -e "s#\(cp src/\$\$file \$(BINDIR)/\);#\1\$\${file}2;#" -i Makefile
$ make install
$ echo 'PATH=$PATH:/opt/biosoft/hmmer-2.3.2/bin/' >> ~/.bashrc

安装 glimmer3

$ wget http://ccb.jhu.edu/software/glimmer/glimmer302.tar.gz
$ tar zxf glimmer302.tar.gz -C /opt/biosoft/
$ cd /opt/biosoft/glimmer3.02
$ wget https://bitbucket.org/antismash/antismash2/downloads/Allow-glimmer-to-compile-on-g-4.4.3.patch -O Allow-glimmer-to-compile-on-g-4.4.3.patch
$ patch -p1 < Allow-glimmer-to-compile-on-g-4.4.3.patch
$ cd src
$ make -j 4
$ echo 'PATH=$PATH:/opt/biosoft/glimmer3.02/bin/' >> ~/.bashrc

安装 GlimmerHMM 3.02

$ wget ftp://ccb.jhu.edu/pub/software/glimmerhmm/GlimmerHMM-3.0.2.tar.gz
$ tar zxf GlimmerHMM-3.0.2.tar.gz -C /opt/biosoft/
$ cd /opt/biosoft/GlimmerHMM/sources
$ make
$ cp glimmerhmm ../bin/
$ echo 'PATH=$PATH:/opt/biosoft/GlimmerHMM/bin/' >> ~/.bashrc

安装 Muscle

$ wget http://www.drive5.com/muscle/downloads3.8.31/muscle3.8.31_src.tar.gz
$ tar zxf muscle3.8.31_src.tar.gz -C /opt/biosoft/
$ cd /opt/biosoft/muscle3.8.31/src
$ make -j 4
$ mkdir ../bin/
$ cp muscle ../bin/
$ echo 'PATH=$PATH:/opt/biosoft/muscle3.8.31/bin/' >> ~/.bashrc
$ source ~/.bashrc

安装一些系统软件:

$ sudo yum install -y perl-Archive-Tar python-pip python-virtualenv git java-1.7.0-openjdk python-devel libxslt-devel libxml2-devel gcc-c++ patch glibc-static cairo
$ wget http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm
$ sudo rpm -Uvh epel-release-6-8.noarch.rpm

安装 antiSMASH。可以不需要以上所有步骤,直接进行下面的安装(需要联网)。以上步骤则是将所有的程序安装到 /opt/biosoft 目录下,以便于管理生物信息学软件。

$ mkdir /opt/biosoft/antiSMASH/
$ cd /opt/biosoft/antiSMASH/
$ wget https://bitbucket.org/antismash/antismash2/downloads/install_centos.sh -O install_centos.sh
此文件中有处错误,导致下载不了 antiSMASH 的软件包。
$ perl -p -i -e 's#\"\${ANTISMASH_BASE}\${ANTISMASH_TARBALL}\"#\${ANTISMASH_BASE}/\${ANTISMASH_TARBALL} -O \${ANTISMASH_BASE}#' install_centos.sh
此脚本适合于 CentOS 6.4 系统,如果是 CentOS 6.5 系统, 则要多进行下一步
$ perl -p -i -e 's/6_4/6_5/' install_centos.sh
$ sh install_centos.sh
$ echo 'PATH=$PATH:/opt/biosoft/antiSMASH/' >> ~/.bashrc
$ source ~/.bashrc
$ run_antismash

4. antiSMASH 使用

4.1 注意事项

antiSMASH 支持 Fasta/Genbank/EMBL (要分别以 .fasta .gbk .embl 作为后缀以利于程序识别)格式的文件作为输入。推荐使用 Genbank 格式文件作为输入。该文件包含了编码蛋白基因的注释信息。否则,以 fasta 文件作为输入,程序则需要调用 Glimmer3 和 GlimmerHMM 来进行基因预测后再进行次级代谢基因簇的鉴定。
使用 –clusterblast 和 –subclusterblast 参数,antiSMASH 使用 blastp 来将氨基酸序列比对到已知的次级代谢 clusters 或 subclusters 上,来寻找 query 序列中的基因簇。网页版中默认使用此参数。
使用 –smcogs 参数,antiSMASH 能分析次级代谢基因家族 (smCOGs),并使用其家族的基因(最多100个)构建系统发育树。网页版中默认使用此参数。
使用 –full-hmmer 参数, antiSMASH 将进行全基因组的 PFAM 分析,寻找次级代谢 domains 出现过于频繁的基因组区域。这样能找到一些 clusterblast 步骤中漏掉的基因簇。网页版中默认使用此参数。

4.2 常用例子

$ run_antismash --clusterblast --subclusterblast --smcogs --full-hmmer species.gbk

结果文件生成于 species 文件夹下。点击 index.html 进行结果的网页查看。
有关于基因组 genbank 文件的生成,可以使用 tbl2asn 软件进行生成。

真菌 RIP 分析

RIPcal 安装

$ sudo cpan -i Math::Round
$ sudo cpan -i Tk
$ wget http://nchc.dl.sourceforge.net/project/ripcal/RIPCAL/RIPCAL_2.0/ripcal2_install.zip
$ unzip ripcal2_install.zip
$ mkdir /opt/biosoft/ripcal2/
$ mv ripcal2_install/perl/* /opt/biosoft/ripcal2/
$ chmod 755 /opt/biosoft/ripcal2/*
$ mv ripcal2_install/RIPCAL_manual_v1_0.pdf /opt/biosoft/ripcal2/
$ echo 'PATH=$PATH:/opt/biosoft/ripcal2/' >> ~/.bashrc
$ source ~/.bashrc

使用 rfam 进行 ncRNA 注释

1. rfam 简介

Rfam 是一个数据库,用于鉴定 non-coding RNAs。
其官网:http://rfam.sanger.ac.uk
其参考文献:Rfam 11.0: 10 years of RNA families

2. rfam 安装

说明文档:ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/Expandednotesonrunningrfam_scan.pl.txt

2.1 下载 rfam_scan.pl 软件

下载最新版本的 rfam_scan.pl 软件

$ mkdir /opt/biosoft/rfam
$ cd /opt/biosoft/rfam
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/rfam_scan.pl
$ chmod 755 rfam_scan.pl
$ echo 'PATH=$PATH:/opt/biosoft/rfam' >> ~/.bashrc
$ source ~/.bashrc

2.2 安装 infernal

rfam_scan.pl 的运行需要 infernal 软件。此外还需要 Perl 5.6 及以上版本,NCBI BLAST 程序 和 Bioperl。
rfam 11 版本的 rfam_scan.pl 需要安装 infernal 1.0 (1.1版本会报错):

$ wget http://selab.janelia.org/software/infernal/infernal-1.0.2.tar.gz
$ tar zxf infernal-1.0.2.tar.gz
$ cd infernal-1.0.2
$ ./configure --prefix=/opt/biosoft/infernal-1.0.2 && make && make install
$ echo 'PATH=$PATH:/opt/biosoft/infernal-1.0.2/bin/' >> ~/.bashrc
$ source ~/.bashrc

2.3 下载并安装 rfam 的 blast 和 cm 数据库

blast 数据库包含了所有 rfam 家族的核酸序列。并且这些序列进行以 90% 的一致性进行了去冗余处理。
cm 数据库包含了所有的 rfam 家族的 covariance models。
rfam 11 版本中包含了 383,004 条序列和 2,208 个 cms(即 2,208 个 rfam 家族)。

$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.fasta.gz
$ gzip -d Rfam.fasta.gz
$ formatdb -i Rfam.fasta -p F
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
$ gzip -d Rfam.cm.gz

3. 使用 rfam

常用例子:

$ rfam_scan.pl -blastdb /opt/biosoft/rfam/Rfam.fasta /opt/biosoft/rfam/Rfam.cm genome.fasta -o rfam.gff3

上述例子中,软件将调用 blast 将 query 序列比对到 Rfam.fasta 的 blast 数据库中,去寻找相应的 ncRNA 的相似序列,使用的 blast evalue 的阈值是 0.01 。 然后将 blast 的结果再调用 cmsearch 使用 Rfam.cm 进行验证,减少假阳性概率。如果不使用 blast,仅使用 cmsearch 则速度极慢。