CAZyme注释步骤

CAZyme的数据来源于CAZyDB：www.cazy.org;而对CAZyme的注释主要使用dbCAN：http://csbl.bmb.uga.edu/dbCAN/。对CAZyme的注释步骤如下：

1. 从dbCAN中下载HMMs

打开dbCAN网站的Download页面。下载其中的3个文件：all.hmm.ps.len，dbCAN-fam-HMMs.txt，hmmscan-parser.sh。

2. 下载hmmer软件

3. 对目的蛋白质序列进行注释

目的蛋白质序列常常是全基因组的预测蛋白。比如其文件名为species_protein.fasta.CAZyme注释过程为：

$ hmmpress dbCAN-fam-HMMs.txt
$ hmmscan dbCAN-fam-HMMs.txt species_protein.fasta > CAZyme_species.dbCAN
$ sh hmmscan-parser.sh CAZyme_species.dbCAN > CAZyme_species.annot

程序很快运行完毕，CAZyme的注释结果文件为CAZyme_species.annot。

4. 结果文件

CAZyme_species.annot的文件内容如下：

scaffold_1.30   GH28.hmm        1.5e-58 9       308     60      361     0.92
scaffold_1.30.1 GH28.hmm        1.5e-58 9       308     60      361     0.92
scaffold_1.90   GT32.hmm        1.2e-23 2       87      81      161     0.944444444444444
scaffold_1.94   GH18.hmm        3.5e-64 5       288     127     486     0.956081081081081
scaffold_10.18  GH105.hmm       1.1e-84 14      332     49      392     0.957831325301205
scaffold_10.20  CBM1.hmm        9.1e-14 1       29      26      54      0.96551724137931
scaffold_100.3  GT15.hmm        4.5e-126        1       272     75      345     0.992673992673993
scaffold_100.3.1        GT15.hmm        5.4e-105        1       240     75      313     0.875457875457875
scaffold_100.4  GT15.hmm        1.4e-128        1       272     70      340     0.992673992673993

每一列的描述为：蛋白质序列名称，所属家族，E-value，hmm模型匹配起始，hmm模型的匹配结束，查询序列起始，查询序列结束，覆盖度。

陈连福的生信博客

第22期培训班将于2024.01.27-2024.02.05期间在武汉市举办！

1. 从dbCAN中下载HMMs

2. 下载hmmer软件

3. 对目的蛋白质序列进行注释

4. 结果文件

发表评论取消回复

1. 从dbCAN中下载HMMs

2. 下载hmmer软件

3. 对目的蛋白质序列进行注释

4. 结果文件

发表评论 取消回复

发表评论取消回复