InterProScan的三种使用方法

Interproscan,通过蛋白质结构域和功能位点数据库预测蛋白质功能。是EBI开发的一个集成了蛋白质家族、结构域和功能位点的非冗余数据库。Interproscan整合了一些使用最普及的一些数据库,并应用于功能未知的蛋白进行Interpro注释和GO注释。
以下介绍3中interpro注释的方法:

一、网页版的Interpro注释

打开InterProScan的官网地址:http://www.ebi.ac.uk/Tools/pfa/iprscan/。将序列粘贴到输入框中进行Interpro注释。

优点:使用网页版,方便快捷;不消耗本地计算资源。
缺点:输入必须为蛋白质序列;一次只能比对条蛋白质序列。

二、使用EBI提供的perl程序进行远程比对

程序下载网页地址:http://www.ebi.ac.uk/Tools/webservices/services/pfa/iprscan_rest
其实,除了perl程序,Python和Ruby也各有一支程序。分别是:
iprscan_lwp.pl ; iprscan_urllib2.py ; iprscan_net_http.rb

优点:不消耗本地计算资源;可以自己编写脚本来大批量比对本地的protein序列到EBI的
interpro服务器,获得得interpro注释。
缺点:比对结果为xml格式,普通科研人员玩不来。

三、本地化的InterProScan注释

3.1 本地化的InterProScan安装与配置

3.1.1 从ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan下载以下5个文件:

RELEASE/latest/iprscan_v4.8.tar.gz
BIN/4.x/iprscan_bin4.x_[PLATFORM].tar.gz 
DATA/iprscan_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_PTHR_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_MATCH_DATA_[LATESTDATAVERSION].tar.gz

3.1.2 将5个文件解压到一个文件夹中,然后运行其中的文件Config.pl,来对InterProScan进行配置。
3.1.3 配置的过程中,若选择进行本地web配置,则修改本地www服务的配置文件,以能进行本地化网页版的运行。

3.2 本地化InterProScan的使用。

3.2.1 命令行运行iprscan的方法:

$ bin/iprscan -cli -iprlookup -goterms -format xml -i test.fasta -o test.out

3.2.2 iprscan的参数说明:

-cli         设定程序在unix命令下运行,如果不设此参数,程序会被当作CGI程序运行。
-iprlookup   结果里显示相应的interpro注释信息。
-goterms     结果里显示相应的GO注释信息,但前面要加上-iprlookup参数。
-format      输出结果的格式,有raw, xml, txt, html(default), ebixml
(EBI header on top of xml) gff。
-appl  数据库和扫描方法的的选择。无此参数表示默认选择全部数据库(配置Interpro
scan时候设置的数据库)。选择多个数据库则需该参数多次。本地运行Interproscan相
比官网运行,有两个数据库不能选择为:tmhmm 和 signalp。这两个数据库的选择需要
commercial license。
-i           输入文件,InterProScan支持输入蛋白质序列和核酸序列,如果输入核
酸系列,程序会将其翻译成蛋白质序列,你可以指定翻译用到的密码表,用下面的-trtable
参数,序列格式可以是raw,Fasta或者EMBL。
-o           结果输出文件,如果不选择此参数,结果将输出到标准输出,输出格式可以
用下面的-format参数设定。
-trtable   选择核酸翻译蛋白质的密码表,同时可以设定-trlen 参数来控制核酸翻译
的转录子长度。
-nocrc       不对输入蛋白质序列进行crc64匹配。不加此参数,则默认是会对蛋白质
序列开启了crc64匹配。Interpro数据库(memember database)已经包含了大量序列
搜索的结果,就是如果你的蛋白序列已经包含在interpro的数据库里面,iprscan会直接
给出搜索结果,无需进行本地运算。interpro数据库不包括tmhmm, coil和signalp,
所以crc64匹配不到这3个数据库。一般情况下,由于commercial licese而无法使用
tmhmm和signalp数据库,coil数据库也不会使用。故不使用此参数,加快程序运行速度。
-seqtype     输入的序列类型,蛋白质序列(-seqtype p)(defult)或者(-se
qtype n)。
-email       设定一个Email地址,程序运行完毕向信箱发送邮件通知分析完毕。
-verbose     程序运行过程中显示运行的状态。
-help        显示帮助信息。

3.2.3 InterProScan其它附带的重要程序

meter.pl     reports the progress of a job.有百分之几的chunk已经运行完毕。
converter.pl 将raw的格式转换成其它的格式,比如html,xml,txt等格式。
iterator.pl  运用于逐条去注释序列

3.2.4 多线程运行
hmmpfam, hmmscan 和 hmmsearch 能多线程运行。
经过测试 PIR superfamily 和 SUPERFAMILY 这两个数据库的应用比较费时,可以设置conf文件夹中的配置文件hmmpir.conf和superfamily.conf,将其中的cpu_opt的值设置高一些。默认是1。
3.2.5 逐条序列地运行
InterProScan不能立马给出结果文件并相继把结果放入到结果文件中。可以采用逐条比对的方法来得到注释结果。可以采用如下的方法来随时终结掉程序,并拿到部分结果。

$ bin/iterator.pl -i test.fa -o test.out -c "bin/iprscan -cli -i %infile -iprlookup -goterms -format xml"

3.2.6 优缺点

优点:使用本地化的数据库,在断网和计算机资源充足的情况下,能加快注释速度;本地化网
页版能同时比对多条序列;本地化能对DNA序列进行interpro注释。
缺点:本地化安装InterProScan比较复杂耗时;需要不时更新本地数据库;本地化运行耗
费计算资源大;

InterProScan的三种使用方法》上有3条评论

  1. 老师,您的生物信息学的相关系列对我帮助特别大。在很多时候我都不知道怎么办的情况下,给了我很多指示和启发。非常感谢您!

  2. 你好!我想问下,-appl这个参数的数据库,该怎么选择呢?我是想做GO注释的。但如果所有数据库都选择,运行速度会很慢吧,我想。
    还有就是,我是本地化运行的,你说到本地化是不能选择tmhmm 和 signalp,那如果我不写-appl这个参数,是不是默认也选上了呢?

发表评论

电子邮件地址不会被公开。 必填项已用*标注