AGP文件为NCBI数据上传要求的标准格式,用来描述小片段序列(比如contig)如何构成大片段序列(比如scaffold和chromosome)。详细的说明文档请见:http://www.ncbi.nlm.nih.gov/projects/genome/assembly/agp/AGP_Specification.shtml
AGP文件有9列,分别是:
1. 大片段的序列名(object) 2. 大片段起始(object_begin) 3. 大片段结束(object_end) 4. 该段序列在大片段上的编号(part_number) 一般一个大片段由多个小片段和gap组成。此处则为这些小片段和gap在大片段上的编号。 5. 该段序列的类型(component_type) 常用的是W、N和U。W表示WGS contig;N表示指定大小的gap;U表示不明确长度的gap,一般用100bp长度。 6. 小片段的ID或gap长度(component_id or gap_length) 如果第5列不为N或U,则此列为小片段的ID。 如果第5列是N或U,则此列为gap的长度。如果第5列为U,则此列值必须为100。 7. 小片段起始或gap类型(component_begin or gap_type) 如果第5列是N或U,则此列表示gap的类型。常用的值是scaffold,表示是scaffold内2个contigs之间的gap。其它值有:contig,2个contig序列之间的unspanned gap,这样的gap由于没有证据表明有gap,应该要打断大片段序列;centromere,表示中心粒的gap;short_arm,a gap inserted at the start of an acrocentric chromosome;heterochromatin,a gap inserted for an especially large region of heterochromatic sequence;telomere,a gap inserted for the telomere;repeat,an unresolvable repeat。 8. 小片段结束或gap是否被连接(component_end or linkage) 如果第5列是N或U,则此列一般的值为yes,表示有证据表明临近的2个小片段是相连的。 9. 小片段方向或gap的连接方法(orientation or linkage_evidence) 如果第5列不为N或U,则此列为小片段的方向。其常见的值为 +、-或?。 如果第5列是N或U,则此列表明临近的2个小片段能连接的证据类型。其用的值是paired-ends,表明成对的reads将小片段连接起来。其它值有:na,第8列值为no的时候使用;align_genus,比对到同属的参考基因组而连接;align_xgenus,比对到其它属的参考基因组而连接;align_trnscpt,比对到同样物种的转录子序列上;within_clone,gap两边的序列来自与同一个clone,但是gap没有paired-ends跨越,因此这种连接两边小片段无法确定方向和顺序;clone_contig,linkage is provided by a clone contig in the tiling path (TPF);map,根据连锁图,光学图等方法确定的连接;strobe,根据PacBio序列得到的连接;unspecified。如果有多中证据,则可以写上多种证据,之间用分号分割。
例子:
Scaffold from component (WGS)
Chromosome from scaffold (WGS)