GAMMA分布

1. 序列不同位点的进化速率服从GAMMA分布

在做进化分析时,很多参数都服从GAMMA distribution(伽马分布)。最典型的参数是序列中各个位点的进化进化速率服从GAMMA分布。序列中的位点数量很多,一般情况下不同位点的进化速率差别较大,比如:密码子第3位碱基进化速率快,第1位和2位进化较慢。

GAMMA分布由alpha(形状)和beta(尺度)两个参数决定。其均值 = alpha / beta,方差 = alpha / (beta的平方)。当alpha > 1时,分布呈钟形,表示大部分位点的进化速率位于均值附近,趋于一致;当alpha <= 1时,分布为一个高度倾斜的L形,表示大部分位点的进化速率非常低,只有少部分位点属于进化的热点。一般情况下,对于真实的多序列比对数据,不同位点其碱基替换率是不一致的,推荐设置alpha = 0.5。

2. 其它服从GAMMA分布的进化参数

(1) rate: 所有位点的平均[碱基/密码子/氨基酸]替换率。

(2) sigma2: 所有位点进化速率取对数后的方差。

(3) kappa: 转换/颠换的比率。当氨基酸替换模型选择HKY时,则需要计算kappa参数。

(4) alpha: 不同位点变异速率不一样从而使用GAMMA分布时,对其形状参数alpha使用GAMMA分布进行计算。