基因预测流程

1. 获取准确的转录子序列

利用 RNA-seq 数据进行转录组 de novo 组装。 推荐使用 trinity 软件进行有基因指导的 de novo 组装,只进行 inchworm 组装,这样能获得比较准确的转录组序列。

2. 获取完整的基因模型

使用 PASA 将上一步骤得到的转录子序列比对到基因组上。根据比对结果,提取完整并且长度较长的基因模型。

3. HMM training

根据上一步骤的基因模型进行 AUGUSTUS 和 SNAP 的 training,得到这 2 个基因预测软件的 HMM 参数文件。

4. 由 RNA-seq 数据得到 hints

对基因组进行重复序列分析,对 DNA 转座子和逆转录转座子进行 hardmask (即对该区域使用 N 屏蔽),对 low-complexity 区域进行 softmask(即将该区域碱基换成小写)。 将 RNA-seq 数据比对到屏蔽了重复序列的基因组,得到 hints 信息。

5. 获取低表达区域来自其它物种的保守蛋白

在屏蔽重复序列的基础上,对上一步骤得到 hints 区域进行hardmask。 从 NCBI 的 Taxonomy 数据库下载蛋白质序列,并将这些序列比对到屏蔽了重复序列和基因表达区域的基因组上,设定阈值筛选出保守蛋白。这些蛋白比对到了表达量低的基因区,有利于这些基因的预测。

6. 使用 MAKER 进行第一遍基因预测

使用 MAKER 进行基因预测,输入文件有:

基因组序列: 基因组装的结果文件
重复序列文库: 使用 ReapeterModeler 得到
HMM 文件: AUGUSTUS, SNPA 和 GeneMark-ES 的 HMM 文件
转录子序列: PASA 的结果文件
蛋白质序列: 筛选出来的蛋白序列

7. 使用 MAKER 进行第二遍基因预测

根据上一步的预测结果,提取 AED 值较低的基因模型,进行第二遍 HMM training,然后再次使用 MAKER 进行基因预测。

8. 进行基因模型的人工校正

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据