本文讲述如何对基因组预测基因进行COG分类。

一 COG简介

COG，即Clusters of Orthologous Groups of proteins。

其网址主页为： http://www.ncbi.nlm.nih.gov/COG/。

网页版使用工具网址： http://www.ncbi.nlm.nih.gov/COG/old/xognitor.html。

使用说明文档网址： http://www.nlm.nih.gov/COG/old/COGhelp.html。

其FTP站点为: ftp://ftp.ncbi.nih.gov/pub/COG/。

通过观看其主页和说明文档，可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类，一类是原核生物的，另一类是真核生物。原核生物的一般称为COG数据库；真核生物的一般称为KOG数据库。

COG注释作用：1. 通过已知蛋白对未知序列进行功能注释； 2. 通过查看指定的COG编号对应的protein数目，存在及缺失，从而能推导特定的代谢途径是否存在； 3. 每个COG编号是一类蛋白，将query序列和比对上的COG编号的proteins进行多序列比对，能确定保守位点，分析其进化关系。

二将序列进行COG分类的步骤

1. COG的ftp里边提供了一个名为myva的文件，该文件里面为COG数据库的蛋白质序列，有192987条。将该序列文件使用使用ncbi-blast-2.2.26+中的blastdb程序制作出一个前缀为cog的蛋白质数据库。

2. 将需要进行COG注释并分类的DNA序列或protein序列分别使用blastx或blastp比对到上一步骤建好的cog数据库中。得出xml的比对结果。

3. 根据上一步骤的比对结果，得出与query序列相似的cog蛋白id。在COG的ftp里面有一个名为whog的文件，该文件中记录着COG数据中绝大部分的蛋白质id以及其所对应的以COG开头的protein编号，同时也记录这COG编号对应的功能分类编号。因此，可以得出query序列注释的COG编号以及其功能分类编号。

4. ftp中还有一个名为fun.txt的文件，该文件记录这COG的功能分类编号，及其对编号的功能描述。

5. 因此，我编写了一个脚本程序用于COG分类注释。该脚本程序名字为cog.pl。输入为所需要进行COG分类的fasta序列文件，得出序列的比对结果和分类统计。

三将序列进行KOG分类

方法和COG的分类一致。值得注意的是KOG数据中protein的编号是以LSE或TWOG开头的。同样，我编写了一个kog.pl。

四说明补充

值得说明的是，KOG数据库中蛋白质序列数目为112920条，但是其中有protein编号的只有27887条，占25%。而COG数据库中蛋白质序列条数为192987，其中有COG编号的有129326条，占67%。所以比对结果中，很多序列比对上了KOG数据库，但是没有protein编号；而在比对到COG数据库时会好很多。

所以，可以先将序列比对到COG数据库，得出分类数据；然后将没有分类编号的序列挑选出来，再比对到KOG数据库，得出分类数据；然后将两个分类数据进行整合，然后画出COG分类图。

陈连福的生信博客

第22期培训班将于2024.01.27-2024.02.05期间在武汉市举办！

COG分类

一 COG简介

二将序列进行COG分类的步骤

三将序列进行KOG分类

四说明补充

发表评论取消回复

一 COG简介

二 将序列进行COG分类的步骤

三 将序列进行KOG分类

四 说明补充

发表评论 取消回复

二将序列进行COG分类的步骤

三将序列进行KOG分类

四说明补充

发表评论取消回复