COG分类

本文讲述如何对基因组预测基因进行COG分类。

一 COG简介

COG,即Clusters of Orthologous Groups of proteins。

其网址主页为: http://www.ncbi.nlm.nih.gov/COG/。

网页版使用工具网址: http://www.ncbi.nlm.nih.gov/COG/old/xognitor.html。

使用说明文档网址: http://www.nlm.nih.gov/COG/old/COGhelp.html。

其FTP站点为: ftp://ftp.ncbi.nih.gov/pub/COG/。

通过观看其主页和说明文档,可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。

COG注释作用:1. 通过已知蛋白对未知序列进行功能注释; 2. 通过查看指定的COG编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在; 3. 每个COG编号是一类蛋白,将query序列和比对上的COG编号的proteins进行多序列比对,能确定保守位点,分析其进化关系。

二 将序列进行COG分类的步骤

1. COG的ftp里边提供了一个名为myva的文件,该文件里面为COG数据库的蛋白质序列,有192987条。将该序列文件使用使用ncbi-blast-2.2.26+中的blastdb程序制作出一个前缀为cog的蛋白质数据库。

2. 将需要进行COG注释并分类的DNA序列或protein序列分别使用blastx或blastp比对到上一步骤建好的cog数据库中。得出xml的比对结果。

3. 根据上一步骤的比对结果,得出与query序列相似的cog蛋白id。在COG的ftp里面有一个名为whog的文件,该文件中记录着COG数据中绝大部分的蛋白质id以及其所对应的以COG开头的protein编号,同时也记录这COG编号对应的功能分类编号。因此,可以得出query序列注释的COG编号以及其功能分类编号。

4. ftp中还有一个名为fun.txt的文件,该文件记录这COG的功能分类编号,及其对编号的功能描述。

5. 因此,我编写了一个脚本程序用于COG分类注释。该脚本程序名字为cog.pl。输入为所需要进行COG分类的fasta序列文件,得出序列的比对结果和分类统计。

三 将序列进行KOG分类

方法和COG的分类一致。值得注意的是KOG数据中protein的编号是以LSE或TWOG开头的。同样,我编写了一个kog.pl。

四 说明补充

值得说明的是,KOG数据库中蛋白质序列数目为112920条,但是其中有protein编号的只有27887条,占25%。而COG数据库中蛋白质序列条数为192987,其中有COG编号的有129326条,占67%。所以比对结果中,很多序列比对上了KOG数据库,但是没有protein编号;而在比对到COG数据库时会好很多。

所以,可以先将序列比对到COG数据库,得出分类数据;然后将没有分类编号的序列挑选出来,再比对到KOG数据库,得出分类数据;然后将两个分类数据进行整合,然后画出COG分类图。

COG分类》上有58条评论

  1. 您好,陈老师,在NGS生物信息分析书中,您的教材中的链接打不开,能不能发份脚本到我邮箱呢?打扰您了。

  2. 陈老师,看了您的博客,写的很好,我最近也在做相关的注释,能否把脚本给我发一份呢?谢谢!我的邮箱cshen226@126.com,十分感谢!!

  3. 陈老师,您好!看了您的博客,写得很好!我在做细菌的基因组注释,能否麻烦您发一个cog.pl脚本?跪谢!!!
    邮箱:mengpeiqi_9343@126.com

  4. 老师,您好!谢谢您分享的这么宝贵的经验,我在做细菌的基因组注释,正在发愁如何做COG 分析,看了您的分享,如获至宝,能否麻烦您发一个cog.pl脚本?非常感谢!
    邮箱:xueting221314@126.com

  5. 陈老师,您好!看了您的博客,很有感触!我在做细菌的基因组注释,能否麻烦您发一个cog.pl脚本?跪谢!!!

  6. 陈老师您好,COG数据库现在有一个更新版的COG2014,不知道您是否知道怎么使用它进行基因注释,能否分享一下?

  7. 老师您好,看了您的博客,写的很好,我最近也在做相关的注释,能否把脚本给我发一份呢?谢谢!我的邮箱1391074572@qq.com,十分感谢!!

  8. 老师,您好,不知道能不能共享下您的cog_from_xml.pl cog_R.pl脚本到我的邮箱616501831@qq.com,最近正在学习这方面的知识,谢谢。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>