1. ABySS 进行 scaffolding 的目的与优点
目的: 对其它基因组 denovo 的 assembly 结果,使用 abyss 再进行一次 scaffolding。
优点: 可以使用 RNA-seq 的转录子数据进行基因组的辅助组装。
2. ABySS 进行 scaffolding 的命令行
输入文件: assembly.fasta, 2000.1.fastq, 2000.2.fastq, 5000.1.fastq, 5000.2.fastq。
输入文件是基因组的组装结果,和 3 对 mate-paired Illumina 数据。
2.1 对 assembly.fasta 进行序列改名
去除序列之间的换行 fasta_no_blank.pl assembly.fasta > 11; mv 11 assembly.fasta 给序列按顺序重命名 perl -e '$num = 0; while (<>) {if (/^>/) { s/>(.*)/>$num/; print; $num ++; } else { print } }' assembly.fasta > ledodes-6.fa
2.2 将 mate-paired 数据比对到基因组序列上
根据比对结果,得到 mate-paired library 的 insertSize 信息(以 .hist 为后缀的文件)和 序列之间的连接、距离与顺序信息 (以 .dist.dot 为后缀的 graph 文件)。
abyss-map -j24 -l87 3000.1.fastq 3000.2.fastq ledodes-6.fa \ |abyss-fixmate -l87 -h mp1-6.hist \ |sort -snk3 -k4 \ |DistanceEst --dot -j24 -k87 -l87 -s200 -n10 -o mp1-6.dist.dot mp1-6.hist abyss-map -j24 -l87 8000.1.fastq 8000.2.fastq ledodes-6.fa \ |abyss-fixmate -l87 -h mp2-6.hist \ |sort -snk3 -k4 \ |DistanceEst --dot -j24 -k87 -l87 -s200 -n10 -o mp2-6.dist.dot mp2-6.hist
以上命令行中参数:
-j24 使用 24 个线程运行 -l87 使用的 kmer值 为 87 -s200 sedd contigs的最小长度为 200bp -n10 所允许连接两条序列的最小的pairs的数目
2.3 进行 scaffolding
abyss-scaffold -k87 -s200 -n5 -g ledodes-6.path.dot ledodes-6.fa mp1-6.dist.dot mp2-6.dist.dot > ledodes-6.path PathConsensus -k87 -p0.9 -s ledodes-7.fa -g ledodes-7.adj -o ledodes-7.path ledodes-6.fa ledodes-6.fa ledodes-6.path cat ledodes-6.fa ledodes-7.fa \ | MergeContigs -k87 -o ledodes-8.fa - ledodes-7.adj ledodes-7.path ln -sf ledodes-8.fa ledodes-scaffolds.fa PathOverlap --overlap --dot -k87 ledodes-7.adj ledodes-7.path > ledodes-8.dot
2.4 使用转录子序列进行 rescaffolding
bwa index ledodes-8.fa bwa mem -a -t2 -S -P -k87 ledodes-8.fa transcripts.fasta \ |gzip > long1-8.sam.gz abyss-longseqdist -k87 long1-8.sam.gz \ |grep -v "l=" >long1-8.dist.dot abyss-scaffold -k87 -s200 -n1 -g ledodes-8.path.dot ledodes-8.dot long1-8.dist.dot > ledodes-8.path PathConsensus -k87 -p0.9 -s ledodes-9.fa -g ledodes-9.adj -o ledodes-9.path ledodes-8.fa ledodes-8.dot ledodes-8.path cat ledodes-8.fa ledodes-9.fa \ | MergeContigs -k87 -o ledodes-10.fa - ledodes-9.adj ledodes-9.path ln -sf ledodes-10.fa ledodes-long-scaffs.fa