Web Apollo 使用心得

1. Maker 的基因预测结果综合了 Augustus, GeneMarkES 和 SNAP 的 ab initio 基因预测结果和 EST 与 Protein 的比对结果。所以 Maker 的基因预测结果比较准确。 Augustus 的基因预测结果提供了 UTR 预测结果,同时由于输入了 intron 信息,预测的结果对 intron 的预测很准。GeneMarkES 的预测结果对真菌是很准的,比 SNAP 要好。所以,进行手工修正的时候,为了获得最准确的基因结构,若基因有表达,特别有intron证据时候,一般使用 Augustus 的预测结果;若无表达的基因,很多时候选择 Maker 或 GeneMarkES 的预测结果。
2. intron 的长度一般在 1000bp 以内, 30bp 以上。 如果 intron 长度特别长,则要看有少 RNA-Seq 数据的比对结果,有多少 reads 能跨过该 intron 。 没有该类证据,则认为该 intron 是错误的。
3. 将 RNA-Seq 数据比对到基因组,转换得到 BigWig track 的显示中,表达量集中且高的区域一般位于 CDS 区域。若预测的基因在这些区域是 UTR,则需要注意。
4. 在表达量比较低的区域,多个软件的基因预测结果比较混乱。在这些区域选择基因的排序原则是: a) intron 长度太大太小的忽略; b) 按软件选择的顺序是 Augustus > Maker > GeneMarkES > SNAP; c) 若有多个软件给的结果一致,则选择一致的结果。
5. SNAP的基因预测结果中允许有很短的 intron,个人觉得是不对的; SNAP 预测的基因长度比其它软件短,容易打断基因。
6. Web Apollo 在非 GTAG intron模式处有感叹号码显示。 Maker,SNAP 和 GeneMarkES 等基因预测软件一般仅认可 GTAG 的剪接模式。而实际上存在很多 GCAG 和 ATAC 模式的剪接模式。
7. 一般情况下 introns 在基因中的位置分布比较均匀,长度也比较均匀。当 intron 在基因中数目较多同时碱基比例较大时候, 基因结构像一条鱼骨架一样。若 introns 的长度不均匀,分布不均匀,则基因结构极可能错误。
8. Augustus 预测的结果和 GeneMarkES 比较接近; Maker 综合多个基因预测结果的时候,时常选择 SNAP 的预测结果。
9. 若在尾部的属于 UTR 的 exon 非常短,则去掉该 exon, 甚至去掉该端的 UTR 区域。
10. 有时候选择 PASA 的基因预测结果,需要选择 Set longest ORF。 而有时候选择 Augustus 的基因预测结果,添加 UTR 区域后, 由于 Web Apollo 自动识别最长的 ORF,从而使 CDS 区发生了改变,需要放大到碱基水平,重新设定起始和终止密码子(而不是选择最长的 ORF)。
11. 当基因组一个区域,有的软件预测是 1 个基因,有的预测为多个。 若预测的 1 个基因中有个过长的 intron,并且仅仅只有少数预测结果是 1 个基因,则需要打断,认为该区域是多个基因。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据