samtools 和 bamtools 安装

1. samtools 安装

SAMtools 新的 1.0 版本改进比较大。 SAMtools 包含 3 部分:

Samtools : 对 SAM/BAM/CRAM 格式文件进行读、写、索引和查看操作。
BCFtools : 对 BCF2/VCF/gVCF 格式文件进行读写操作; 对 SNP 和 short indel 进行 calling/filtering/summarising
HTSlib : 用于高通量数据读写操作的 C library

新版的 samtools 将 Samtools 和 BCFtool 分离开,成为 2 个独立的软件包。 这 2 个都运用了 HTSlib,并且其软件包中都包含了 HTSlib 。
新版不的 Samtools 的官方网址更改为了: http://www.htslib.org/

1.1 安装 Samtools

$ wget http://downloads.sourceforge.net/project/samtools/samtools/1.1/samtools-1.1.tar.bz2
$ tar jxf samtools-1.1.tar.bz2 -C /opt/biosoft/
$ cd /opt/biosoft/samtools-1.1/
$ make -j 8
$ echo 'PATH=$PATH:/opt/biosoft/samtools-1.1/' >> ~/.bashrc

1.2 安装 BCFtools

$ wget http://sourceforge.net/projects/samtools/files/samtools/1.1/bcftools-1.1.tar.bz2
$ tar jxf bcftools-1.1.tar.bz2 -C /opt/biosoft/
$ cd /opt/biosoft/bcftools-1.1
$ make -j 8
$ echo 'PATH=$PATH:/opt/biosoft/bcftools-1.1' >> ~/.bashrc

2. Bamtools

Bamtools 是 Samtools 的 c++ 版本的 Samtools, 其官网: https://github.com/pezmaster31/bamtools

$ wget https://github.com/pezmaster31/bamtools/archive/master.zip -O bamtools-master.zip
$ unzip bamtools-master.zip -d /opt/biosoft/
$ cd /opt/biosoft/bamtools-master/
$ mkdir build
$ cd build/
$ cmake ..
$ make -j 8
$ echo 'PATH=$PATH:/opt/biosoft/bamtools-master/bin/' >> ~/.bashrc 
$ source ~/.bashrc

使用 HISAT 将转录组数据 mapping 到基因组序列

1. HISAT 简介

HISAT:hical Indexing for Spliced Alignment of Transcripts。该软件和 tophat 开发于同一个单位,它相当于 tophat 的升级版,比对速度比 tophat2 快50倍。

2. HISAT 的下载和安装

$ wget http://www.ccb.jhu.edu/software/hisat/downloads/hisat-0.1.5-beta-Linux_x86_64.zip
$ unzip hisat-0.1.5-beta-Linux_x86_64.zip -d /opt/biosoft/
$ echo 'PATH=$PATH:/opt/biosoft/hisat-0.1.5-beta/' >> ~/.bashrc
$ source ~/.bahsrc

2. HISAT 使用

2.1 构建索引文件
$ hisat-build genome.fasta genome

2.2 进行比对 产用的命令与参数示例:

$ hisat -x genome -u 1000000 -p 24 -I 0 -X 500 --rna-strandness RF -1 reads.1.fastq -2 reads.2.fastq -U single.fastq -S result.sam 

hisat 与 bowtie2 的参数基本一致,常用的参数:

-x    输入索引数据库
-1    输入 reads1
-2    输入 reads2
-U    输入单段序列
-u    仅对前多少个reads进行比对
-I    最小插入片段长度
-X    最大插入片段长度
-S    输出sam文件
--rna-strandness 链特异性测序,一般为 RF
-k    一个reads比对到多个地方,报告几个结果,默认为 5 。