Interproscan,通过蛋白质结构域和功能位点数据库预测蛋白质功能。是EBI开发的一个集成了蛋白质家族、结构域和功能位点的非冗余数据库。Interproscan整合了一些使用最普及的一些数据库,并应用于功能未知的蛋白进行Interpro注释和GO注释。
以下介绍3中interpro注释的方法:
一、网页版的Interpro注释
打开InterProScan的官网地址:http://www.ebi.ac.uk/Tools/pfa/iprscan/。将序列粘贴到输入框中进行Interpro注释。
优点:使用网页版,方便快捷;不消耗本地计算资源。 缺点:输入必须为蛋白质序列;一次只能比对条蛋白质序列。
二、使用EBI提供的perl程序进行远程比对
程序下载网页地址:http://www.ebi.ac.uk/Tools/webservices/services/pfa/iprscan_rest。
其实,除了perl程序,Python和Ruby也各有一支程序。分别是:
iprscan_lwp.pl ; iprscan_urllib2.py ; iprscan_net_http.rb。
优点:不消耗本地计算资源;可以自己编写脚本来大批量比对本地的protein序列到EBI的 interpro服务器,获得得interpro注释。 缺点:比对结果为xml格式,普通科研人员玩不来。
三、本地化的InterProScan注释
3.1 本地化的InterProScan安装与配置
3.1.1 从ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan下载以下5个文件:
RELEASE/latest/iprscan_v4.8.tar.gz BIN/4.x/iprscan_bin4.x_[PLATFORM].tar.gz DATA/iprscan_DATA_[LATESTDATAVERSION].tar.gz DATA/iprscan_PTHR_DATA_[LATESTDATAVERSION].tar.gz DATA/iprscan_MATCH_DATA_[LATESTDATAVERSION].tar.gz
3.1.2 将5个文件解压到一个文件夹中,然后运行其中的文件Config.pl,来对InterProScan进行配置。
3.1.3 配置的过程中,若选择进行本地web配置,则修改本地www服务的配置文件,以能进行本地化网页版的运行。
3.2 本地化InterProScan的使用。
3.2.1 命令行运行iprscan的方法:
$ bin/iprscan -cli -iprlookup -goterms -format xml -i test.fasta -o test.out
3.2.2 iprscan的参数说明:
-cli 设定程序在unix命令下运行,如果不设此参数,程序会被当作CGI程序运行。 -iprlookup 结果里显示相应的interpro注释信息。 -goterms 结果里显示相应的GO注释信息,但前面要加上-iprlookup参数。 -format 输出结果的格式,有raw, xml, txt, html(default), ebixml (EBI header on top of xml) gff。 -appl 数据库和扫描方法的的选择。无此参数表示默认选择全部数据库(配置Interpro scan时候设置的数据库)。选择多个数据库则需该参数多次。本地运行Interproscan相 比官网运行,有两个数据库不能选择为:tmhmm 和 signalp。这两个数据库的选择需要 commercial license。 -i 输入文件,InterProScan支持输入蛋白质序列和核酸序列,如果输入核 酸系列,程序会将其翻译成蛋白质序列,你可以指定翻译用到的密码表,用下面的-trtable 参数,序列格式可以是raw,Fasta或者EMBL。 -o 结果输出文件,如果不选择此参数,结果将输出到标准输出,输出格式可以 用下面的-format参数设定。 -trtable 选择核酸翻译蛋白质的密码表,同时可以设定-trlen 参数来控制核酸翻译 的转录子长度。 -nocrc 不对输入蛋白质序列进行crc64匹配。不加此参数,则默认是会对蛋白质 序列开启了crc64匹配。Interpro数据库(memember database)已经包含了大量序列 搜索的结果,就是如果你的蛋白序列已经包含在interpro的数据库里面,iprscan会直接 给出搜索结果,无需进行本地运算。interpro数据库不包括tmhmm, coil和signalp, 所以crc64匹配不到这3个数据库。一般情况下,由于commercial licese而无法使用 tmhmm和signalp数据库,coil数据库也不会使用。故不使用此参数,加快程序运行速度。 -seqtype 输入的序列类型,蛋白质序列(-seqtype p)(defult)或者(-se qtype n)。 -email 设定一个Email地址,程序运行完毕向信箱发送邮件通知分析完毕。 -verbose 程序运行过程中显示运行的状态。 -help 显示帮助信息。
3.2.3 InterProScan其它附带的重要程序
meter.pl reports the progress of a job.有百分之几的chunk已经运行完毕。 converter.pl 将raw的格式转换成其它的格式,比如html,xml,txt等格式。 iterator.pl 运用于逐条去注释序列
3.2.4 多线程运行
hmmpfam, hmmscan 和 hmmsearch 能多线程运行。
经过测试 PIR superfamily 和 SUPERFAMILY 这两个数据库的应用比较费时,可以设置conf文件夹中的配置文件hmmpir.conf和superfamily.conf,将其中的cpu_opt的值设置高一些。默认是1。
3.2.5 逐条序列地运行
InterProScan不能立马给出结果文件并相继把结果放入到结果文件中。可以采用逐条比对的方法来得到注释结果。可以采用如下的方法来随时终结掉程序,并拿到部分结果。
$ bin/iterator.pl -i test.fa -o test.out -c "bin/iprscan -cli -i %infile -iprlookup -goterms -format xml"
3.2.6 优缺点
优点:使用本地化的数据库,在断网和计算机资源充足的情况下,能加快注释速度;本地化网 页版能同时比对多条序列;本地化能对DNA序列进行interpro注释。 缺点:本地化安装InterProScan比较复杂耗时;需要不时更新本地数据库;本地化运行耗 费计算资源大;