CAZyme注释步骤

CAZyme的数据来源于CAZyDB:www.cazy.org;而对CAZyme的注释主要使用dbCAN:http://csbl.bmb.uga.edu/dbCAN/。对CAZyme的注释步骤如下:

1. 从dbCAN中下载HMMs

打开dbCAN网站的Download页面。下载其中的3个文件:all.hmm.ps.len,dbCAN-fam-HMMs.txt,hmmscan-parser.sh。

2. 下载hmmer软件

http://hmmer.org/下载hmmer3.0rc2并安装。

3. 对目的蛋白质序列进行注释

目的蛋白质序列常常是全基因组的预测蛋白。比如其文件名为species_protein.fasta.CAZyme注释过程为:

$ hmmpress dbCAN-fam-HMMs.txt
$ hmmscan dbCAN-fam-HMMs.txt species_protein.fasta > CAZyme_species.dbCAN
$ sh hmmscan-parser.sh CAZyme_species.dbCAN > CAZyme_species.annot

程序很快运行完毕,CAZyme的注释结果文件为CAZyme_species.annot。

4. 结果文件

CAZyme_species.annot的文件内容如下:

scaffold_1.30   GH28.hmm        1.5e-58 9       308     60      361     0.92
scaffold_1.30.1 GH28.hmm        1.5e-58 9       308     60      361     0.92
scaffold_1.90   GT32.hmm        1.2e-23 2       87      81      161     0.944444444444444
scaffold_1.94   GH18.hmm        3.5e-64 5       288     127     486     0.956081081081081
scaffold_10.18  GH105.hmm       1.1e-84 14      332     49      392     0.957831325301205
scaffold_10.20  CBM1.hmm        9.1e-14 1       29      26      54      0.96551724137931
scaffold_100.3  GT15.hmm        4.5e-126        1       272     75      345     0.992673992673993
scaffold_100.3.1        GT15.hmm        5.4e-105        1       240     75      313     0.875457875457875
scaffold_100.4  GT15.hmm        1.4e-128        1       272     70      340     0.992673992673993

每一列的描述为:蛋白质序列名称,所属家族,E-value,hmm模型匹配起始,hmm模型的匹配结束,查询序列起始,查询序列结束,覆盖度。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据