1. CAFE 简介
CAFE (Computational Analysis of gene Family Evolution) 用于进行基因家族的扩张收缩分析。
2. CAFE 下载和安装
$ wget http://heanet.dl.sourceforge.net/project/cafehahnlab/cafe.linux.x86_64 $ wget http://downloads.sourceforge.net/project/cafehahnlab/CAFEv3.1_Manual.pdf $ wget http://downloads.sourceforge.net/project/cafehahnlab/CAFEv3.1_Manual.doc $ mv cafe.linux.x86_64 ~/bin/cafe $ cafe
3. CAFE 的简单使用
CAFE 需要的输入:
1. 基因家族在各个物种中的数目。该文件内容有多行,以 tab 分割,第一行内容必须如下: Description ID species1 species2 ... 上面 species1 和 species2 为物种名简称。后面的行为相应的值。 Description 的值可以空着; ID 为基因家族的名称;其它的为数字,表示该基因家族在相应物种中的数目。 该文件可以由 OrthoMCL 的结果统计得到。 2. 超度量树,枝长表示分歧时间。可以使用 BEAST 或 r8s 等生成。树中的物种名必须和第一个文件中的物种名对应。 3. 输入参数 λ 的值。该值表示在物种进化过程中,每个单位时间内基因获得与丢失的概率。可以由软件自己进行计算。
直接输入命令 cafe 则进入了软件的命令行界面,也可以将命令写入到 cafe 脚本中,直接运行。一个简单的示例如下:
#!~/bin/cafe version date load -i orthoMCL2cafe.tab -t 16 -l log.txt -p 0.05 tree (((chimp:6,human:6):81,(mouse:17,rat:17):70):6,dog:93) lambda -s -t (((1,1)1,(2,2)2)2,2) report out
以下简单介绍如上命令
version 显示软件的版本 date 显示当前日期 load -i 输入的数据文件 -t 设置程序运行的线程数,默认为 8 -l 设置输出的日志文件,默认标准输出 -p 设置 p_value 的阈值,默认为 0.01 tree 输入超度量树 lambda -l 设置 λ 的值 -s 设置软件自动寻找最优的 λ 值 -t 默认下所有分支的 λ 值是相同的,若需要不同的分支有不同的 λ 值,则用该参数进行设置。该参数的值和 tree 命令中的树的内容一致,只是去除了分歧时间,并将物种名换成了表示 λ 值的编号。其中,相同的编号表示有相同的 λ 值。例如,该参数的值为 (((1,1)1,(2,2)2)2,2) ,它表示 chimp,human 和 紧邻的分支有相同的 λ 值,其它分支有另外相同的 λ 值。 report out 设置输出文件的前缀为 out
4. CAFE 的输出结果
CAFE 的输出结果为 out.cafe,该文件内容包含如下几部分:
4.1 Tree
第 1 行为输入的树的信息。
4.2 Lambda
第 2 行为 λ 值。
4.3 节点 ID
第 3 行为节点的 ID。同样是树的文字内容,不过给每个节点进行了编号,有利于后面的数值的对应。
4.4 每个基因家族中扩张或收缩的基因数目
第 4 行给出了一系列的 节点ID 对。CAFE 对这些 ID 对进行了基因家族扩张的统计。
第 6 行的值为平均每个基因家族中扩张的基因数目,负数表示基因家族收缩。
4.5 基因家族数目
第 7 行给出发生了扩张的基因家族数目;
第 8 行给出没有发生改变的基因家族数目;
第 9 行给出发生了收缩的基因家族数目;
4.6 每个基因家族的具体扩张与收缩情况
第 10 行之后是每个基因家族具体的扩张情况。其内容分为 4 列:
第 1 列: 基因家族 ID 第 2 列: 树的信息,其中每个物种名后面多个一个下划线和数字,该数字表示基因家族的数目。特别是每个节点的基因家族数目都计算出来了,从而知道在某一个分化过程中基因家族的扩张情况。 第 3 列: 该基因家族总体上的扩张情况的 p_value,不同物种中的基因数目差异越大,则 p 值越小。 第 4 列: 计算出了每个分枝的基因家族扩张的显著性。
根据 CAFE 的结果,可以自行编写程序提取信息。