SAM格式简介

查看文献请点击:The Sequence Alignment/Map format and SAMtools。也可以google搜索“The SAM Format Specification”查询SAM Format的详细文档。
SAMtools作为一个通用工具,使用各种方法来,以SAM格式来对reads的比对结果进行预处理。比如:索引排序,查找变异和比对查看等。
SAM格式由两部分组成:头部区和比对区,都以tab分列。

头部区:以‘@’开始,体现了比对的一些总体信息。比对的SAM格式版本,比对的参考序列,
比对使用的软件等。
比对区: 比对结果,每一个比对结果是一行,有11个主列和1个可选列。
@HD VN:1.0 SO:unsorted  
头部区第一行:VN是格式版本;SO表示比对排序的类型,有unkown(default),unsorted,
queryname和coordinate几种。samtools软件在进行排序后不能自动更新bam文件的SO值。
picard却可以。
@SQ SN:A.auricula_all_contig_1 LN:9401
参考序列名。这些参考序列决定了比对结果sort的顺序。SN是参考序列名;LN是参考序列
长度;
@RG ID:sample01
Read Group. 1个sample的测序结果为1个Read Group;该sample可以有多个library
的测序结果。
@PG ID:bowtie2 PN:bowtie2 VN:2.0.0-beta7
比对所使用的软件。
比对区11个列和可选列的解释
1  QNAME  比对的序列名
2  FLAG   Bwise FLAG(表明比对类型:pairing,strand,mate strand等)
3  RNAME  比对上的参考序列名
4  POS    1-Based的比对上的最左边的定位
5  MAPQ   比对质量
6  CIGAR  Extended CIGAR string (操作符:MIDNSHP) 比对结果信息:匹配碱基数,可变剪接等。
7  MRNM   相匹配的另外一条序列,比对上的参考序列名
8  MPOS   1-Based leftmost Mate POsition
9  ISIZE  插入片段长度
10 SEQ    和参考序列在同一个琏上的比对序列(若比对结果在负意链上,则序列是其反向重复序列)
11 QUAL   比对序列的质量(ASCII-33=Phred base quality)
12 可选的行,以TAG:TYPE:VALUE的形式提供额外的信息
比对区第2列FLAG说明:
Bitwise(按位计算)
Bit(0x表示十六进制) 十进制数值 Description
0x1    1   比对时有多个种子序列比对上