使用Trimmonmatic进行NGS reads的过滤与修剪

1. Trimmomatic

Trimmomatic使用JAVA运行,速度快。同时该软件进行reads QC的原理非常好。因此,最推荐使用此软件进行NGS reads的QC。
参考文献:Lohse M, Bolger AM, Nagel A, Fernie AR, Lunn JE, Stitt M, Usadel B. RobiNA: a user-friendly, integrated software solution for RNA-Seq-based transcriptomics. Nucleic Acids Res. 2012 Jul;40(Web Server issue):W622-7.

2. 常用例子

java -jar /opt/biosoft/Trimmomatic-0.30/trimmomatic-0.30.jar PE \
-threads 20 -phred33 reads1.fastq reads2.fastq \
reads1.clean.fastq reads1.unpaired.fastq reads2.clean.fastq reads2.unpaired.fastq \
ILLUMINACLIP:/opt/biosoft/Trimmomatic-0.30/adapters/TruSeq3-PE.fa:2:30:10 \
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:50

3. 使用参数

有关该软件的详细使用方法,见: Trimmomatic: A flexible read trimming tool for Illumina NGS data

PE/SE
    设定对Paired-End或Single-End的reads进行处理,其输入和输出参数稍有不一样。
-threads
    设置多线程运行数
-phred33
    设置碱基的质量格式,可选pred64
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
    切除adapter序列。参数后面分别接adapter序列的fasta文件:允许的最大mismatch
数:palindrome模式下匹配碱基数阈值:simple模式下的匹配碱基数阈值。
LEADING:3
    切除首端碱基质量小于3的碱基
TRAILING:3
    切除尾端碱基质量小于3的碱基
SLIDINGWINDOW:4:15
    从5'端开始进行滑动,当滑动位点周围一段序列(window)的平均碱基低于阈值,则从该处进行切除。Windows的size是4个碱基,其平均碱基
质量小于15,则切除。
MINLEN:50
    最小的reads长度
CROP:<length>
    保留reads到指定的长度
HEADCROP:<length>
    在reads的首端切除指定的长度
TOPHRED33
    将碱基质量转换为pred33格式
TOPHRED64
    将碱基质量转换为pred64格式

5 thoughts on “使用Trimmonmatic进行NGS reads的过滤与修剪

  1. 我今年硕士一年级,刚开始接触生物信息学,想问一个基本的问题:pathway富集是什么意思?现在查到的资料中没有详细的解释……求助

    • 举个例子:假如中国有10亿人口,其中知识份子有1000万,比例为1%;假如千万富翁有100万人,其中知识分子有10万,比例为10%。
      问:是否有知识,更容易让人成为千万富翁?

      通过计算,结果是在千万富翁存在知识分子的富集。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据