使用 rfam 进行 ncRNA 注释

1. rfam 简介

Rfam 是一个数据库,用于鉴定 non-coding RNAs。
其官网:http://rfam.sanger.ac.uk
其参考文献:Rfam 11.0: 10 years of RNA families

2. rfam 安装

说明文档:ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/Expandednotesonrunningrfam_scan.pl.txt

2.1 下载 rfam_scan.pl 软件

下载最新版本的 rfam_scan.pl 软件

$ mkdir /opt/biosoft/rfam
$ cd /opt/biosoft/rfam
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/rfam_scan.pl
$ chmod 755 rfam_scan.pl
$ echo 'PATH=$PATH:/opt/biosoft/rfam' >> ~/.bashrc
$ source ~/.bashrc

2.2 安装 infernal

rfam_scan.pl 的运行需要 infernal 软件。此外还需要 Perl 5.6 及以上版本,NCBI BLAST 程序 和 Bioperl。
rfam 11 版本的 rfam_scan.pl 需要安装 infernal 1.0 (1.1版本会报错):

$ wget http://selab.janelia.org/software/infernal/infernal-1.0.2.tar.gz
$ tar zxf infernal-1.0.2.tar.gz
$ cd infernal-1.0.2
$ ./configure --prefix=/opt/biosoft/infernal-1.0.2 && make && make install
$ echo 'PATH=$PATH:/opt/biosoft/infernal-1.0.2/bin/' >> ~/.bashrc
$ source ~/.bashrc

2.3 下载并安装 rfam 的 blast 和 cm 数据库

blast 数据库包含了所有 rfam 家族的核酸序列。并且这些序列进行以 90% 的一致性进行了去冗余处理。
cm 数据库包含了所有的 rfam 家族的 covariance models。
rfam 11 版本中包含了 383,004 条序列和 2,208 个 cms(即 2,208 个 rfam 家族)。

$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.fasta.gz
$ gzip -d Rfam.fasta.gz
$ formatdb -i Rfam.fasta -p F
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
$ gzip -d Rfam.cm.gz

3. 使用 rfam

常用例子:

$ rfam_scan.pl -blastdb /opt/biosoft/rfam/Rfam.fasta /opt/biosoft/rfam/Rfam.cm genome.fasta -o rfam.gff3

上述例子中,软件将调用 blast 将 query 序列比对到 Rfam.fasta 的 blast 数据库中,去寻找相应的 ncRNA 的相似序列,使用的 blast evalue 的阈值是 0.01 。 然后将 blast 的结果再调用 cmsearch 使用 Rfam.cm 进行验证,减少假阳性概率。如果不使用 blast,仅使用 cmsearch 则速度极慢。

使用 rfam 进行 ncRNA 注释》上有1个想法

  1. 能不能把你的infernal 1.0 文件和rfam_scan.pl文件发我一份.我这边试了很多次都不行.麻烦你了.谢谢!邮箱549476632@qq.com.感激不尽!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据