查看文献请点击:The Sequence Alignment/Map format and SAMtools。也可以google搜索“The SAM Format Specification”查询SAM Format的详细文档。
SAMtools作为一个通用工具,使用各种方法来,以SAM格式来对reads的比对结果进行预处理。比如:索引排序,查找变异和比对查看等。
SAM格式由两部分组成:头部区和比对区,都以tab分列。
头部区:以‘@’开始,体现了比对的一些总体信息。比对的SAM格式版本,比对的参考序列, 比对使用的软件等。 比对区: 比对结果,每一个比对结果是一行,有11个主列和1个可选列。
@HD VN:1.0 SO:unsorted 头部区第一行:VN是格式版本;SO表示比对排序的类型,有unkown(default),unsorted, queryname和coordinate几种。samtools软件在进行排序后不能自动更新bam文件的SO值。 picard却可以。 @SQ SN:A.auricula_all_contig_1 LN:9401 参考序列名。这些参考序列决定了比对结果sort的顺序。SN是参考序列名;LN是参考序列 长度; @RG ID:sample01 Read Group. 1个sample的测序结果为1个Read Group;该sample可以有多个library 的测序结果。 @PG ID:bowtie2 PN:bowtie2 VN:2.0.0-beta7 比对所使用的软件。
比对区11个列和可选列的解释
1 QNAME 比对的序列名
2 FLAG Bwise FLAG(表明比对类型:pairing,strand,mate strand等)
3 RNAME 比对上的参考序列名
4 POS 1-Based的比对上的最左边的定位
5 MAPQ 比对质量
6 CIGAR Extended CIGAR string (操作符:MIDNSHP) 比对结果信息:匹配碱基数,可变剪接等。
7 MRNM 相匹配的另外一条序列,比对上的参考序列名
8 MPOS 1-Based leftmost Mate POsition
9 ISIZE 插入片段长度
10 SEQ 和参考序列在同一个琏上的比对序列(若比对结果在负意链上,则序列是其反向重复序列)
11 QUAL 比对序列的质量(ASCII-33=Phred base quality)
12 可选的行,以TAG:TYPE:VALUE的形式提供额外的信息
比对区第2列FLAG说明: Bitwise(按位计算) Bit(0x表示十六进制) 十进制数值 Description 0x1 1 比对时有多个种子序列比对上