CAZyme的数据来源于CAZyDB:www.cazy.org;而对CAZyme的注释主要使用dbCAN:http://csbl.bmb.uga.edu/dbCAN/。对CAZyme的注释步骤如下:
1. 从dbCAN中下载HMMs
打开dbCAN网站的Download页面。下载其中的3个文件:all.hmm.ps.len,dbCAN-fam-HMMs.txt,hmmscan-parser.sh。
2. 下载hmmer软件
从http://hmmer.org/下载hmmer3.0rc2并安装。
3. 对目的蛋白质序列进行注释
目的蛋白质序列常常是全基因组的预测蛋白。比如其文件名为species_protein.fasta.CAZyme注释过程为:
$ hmmpress dbCAN-fam-HMMs.txt $ hmmscan dbCAN-fam-HMMs.txt species_protein.fasta > CAZyme_species.dbCAN $ sh hmmscan-parser.sh CAZyme_species.dbCAN > CAZyme_species.annot
程序很快运行完毕,CAZyme的注释结果文件为CAZyme_species.annot。
4. 结果文件
CAZyme_species.annot的文件内容如下:
scaffold_1.30 GH28.hmm 1.5e-58 9 308 60 361 0.92 scaffold_1.30.1 GH28.hmm 1.5e-58 9 308 60 361 0.92 scaffold_1.90 GT32.hmm 1.2e-23 2 87 81 161 0.944444444444444 scaffold_1.94 GH18.hmm 3.5e-64 5 288 127 486 0.956081081081081 scaffold_10.18 GH105.hmm 1.1e-84 14 332 49 392 0.957831325301205 scaffold_10.20 CBM1.hmm 9.1e-14 1 29 26 54 0.96551724137931 scaffold_100.3 GT15.hmm 4.5e-126 1 272 75 345 0.992673992673993 scaffold_100.3.1 GT15.hmm 5.4e-105 1 240 75 313 0.875457875457875 scaffold_100.4 GT15.hmm 1.4e-128 1 272 70 340 0.992673992673993
每一列的描述为:蛋白质序列名称,所属家族,E-value,hmm模型匹配起始,hmm模型的匹配结束,查询序列起始,查询序列结束,覆盖度。