使用 CAFE 进行基因家族扩张分析

1. CAFE 简介

CAFE (Computational Analysis of gene Family Evolution) 用于进行基因家族的扩张收缩分析。

2. CAFE 下载和安装

$ wget http://heanet.dl.sourceforge.net/project/cafehahnlab/cafe.linux.x86_64
$ wget http://downloads.sourceforge.net/project/cafehahnlab/CAFEv3.1_Manual.pdf
$ wget http://downloads.sourceforge.net/project/cafehahnlab/CAFEv3.1_Manual.doc
$ mv cafe.linux.x86_64 ~/bin/cafe
$ cafe

3. CAFE 的简单使用

CAFE 需要的输入:

1. 基因家族在各个物种中的数目。该文件内容有多行,以 tab 分割,第一行内容必须如下:
Description    ID    species1    species2    ...
上面 species1 和 species2 为物种名简称。后面的行为相应的值。 Description 的值可以空着; ID 为基因家族的名称;其它的为数字,表示该基因家族在相应物种中的数目。
该文件可以由 OrthoMCL 的结果统计得到。

2. 超度量树,枝长表示分歧时间。可以使用 BEAST 或 r8s 等生成。树中的物种名必须和第一个文件中的物种名对应。

3. 输入参数  λ 的值。该值表示在物种进化过程中,每个单位时间内基因获得与丢失的概率。可以由软件自己进行计算。

直接输入命令 cafe 则进入了软件的命令行界面,也可以将命令写入到 cafe 脚本中,直接运行。一个简单的示例如下:

#!~/bin/cafe
version
date
load -i orthoMCL2cafe.tab -t 16 -l log.txt -p 0.05
tree (((chimp:6,human:6):81,(mouse:17,rat:17):70):6,dog:93)
lambda -s -t (((1,1)1,(2,2)2)2,2)
report out

以下简单介绍如上命令

version
    显示软件的版本

date
    显示当前日期

load
    -i 输入的数据文件
    -t 设置程序运行的线程数,默认为 8
    -l 设置输出的日志文件,默认标准输出
    -p 设置 p_value 的阈值,默认为 0.01

tree 输入超度量树

lambda
    -l 设置 λ 的值
    -s 设置软件自动寻找最优的 λ 值
    -t 默认下所有分支的 λ 值是相同的,若需要不同的分支有不同的 λ 值,则用该参数进行设置。该参数的值和 tree 命令中的树的内容一致,只是去除了分歧时间,并将物种名换成了表示 λ 值的编号。其中,相同的编号表示有相同的 λ 值。例如,该参数的值为 (((1,1)1,(2,2)2)2,2) ,它表示 chimp,human 和 紧邻的分支有相同的 λ 值,其它分支有另外相同的 λ 值。

report out
    设置输出文件的前缀为 out

4. CAFE 的输出结果

CAFE 的输出结果为 out.cafe,该文件内容包含如下几部分:

4.1 Tree

第 1 行为输入的树的信息。

4.2 Lambda

第 2 行为 λ 值。

4.3 节点 ID

第 3 行为节点的 ID。同样是树的文字内容,不过给每个节点进行了编号,有利于后面的数值的对应。

4.4 每个基因家族中扩张或收缩的基因数目

第 4 行给出了一系列的 节点ID 对。CAFE 对这些 ID 对进行了基因家族扩张的统计。
第 6 行的值为平均每个基因家族中扩张的基因数目,负数表示基因家族收缩。

4.5 基因家族数目

第 7 行给出发生了扩张的基因家族数目;
第 8 行给出没有发生改变的基因家族数目;
第 9 行给出发生了收缩的基因家族数目;

4.6 每个基因家族的具体扩张与收缩情况

第 10 行之后是每个基因家族具体的扩张情况。其内容分为 4 列:

第 1 列: 基因家族 ID
第 2 列: 树的信息,其中每个物种名后面多个一个下划线和数字,该数字表示基因家族的数目。特别是每个节点的基因家族数目都计算出来了,从而知道在某一个分化过程中基因家族的扩张情况。
第 3 列: 该基因家族总体上的扩张情况的 p_value,不同物种中的基因数目差异越大,则 p 值越小。
第 4 列: 计算出了每个分枝的基因家族扩张的显著性。

根据 CAFE 的结果,可以自行编写程序提取信息。

使用 CAFE 进行基因家族扩张分析》上有4条评论

  1. 陈老师,您好:

    我在做CAFE的时候,发现”Lambda : 0.00111111111111 & Score: -inf”,score值全部没有给出,并且有的物种收缩达到了3万。CAFE的结果是基于OrthoMCL结果做的,总共~42000个家族。
    请教一下,您有什么办法可以解决这个问题?

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>