使用 latex 命令将 TEX 文件转换为 DVI 文件
使用 dvipdf 命令将 DVI 文件转换为 pdf 文件
例如:
$ latex wise2.tex $ dvipdf wise2.dvi
使用 latex 命令将 TEX 文件转换为 DVI 文件
使用 dvipdf 命令将 DVI 文件转换为 pdf 文件
例如:
$ latex wise2.tex $ dvipdf wise2.dvi
Genewise主要用于将蛋白质序列和DNA序列进行比对,从而对DNA序列上的编码区进行预测。
$ wget http://www.ebi.ac.uk/~birney/wise2/wise2.4.1.tar.gz $ tar zxf wise2.4.1.tar.gz -C /opt/biosoft/ $ cd /opt/biosoft/src $ yum install *glib* $ find ./ -name makefile | xargs sed -i 's/glib-config/pkg-config --libs glib-2.0/' $ export C_INCLUDE_PATH=/usr/include/glib-2.0/:/usr/lib64/glib-2.0/include/:$C_INCLUDE_PATH $ perl -p -i -e 's/getline/get_line/g' ./HMMer2/sqio.c $ perl -p -i -e 's/isnumber/isdigit/' models/phasemodel.c $ make all $ export WISECONFIGDIR=/opt/biosoft/wise2.4.1/wisecfg/ $ make test $ echo 'PATH=$PATH:/opt/biosoft/wise2.4.1/src/bin/' >> ~/.bashrc $ echo 'export WISECONFIGDIR=/opt/biosoft/wise2.4.1/wisecfg/' >> ~/.bashrc $ source ~/.bashrc
在GeneWise的安装目录下,有一个wise2.pdf文件,阐述了详细的genewise的使用方法。其软件最常用的命令是genewise。该命令的常用示例:
genewise protein.fasta dna.fasta -both -gff 程序输入的蛋白质序列和DNA序列分别是2个fasta文件。这两个fasta文件中仅有第一条序列是有效的,genewise仅对其中的2个第一条序列进行比对。以上示例对dna序列的正负链都进行cds预测,并将gff格式结果文件输出到标准输出。
genewise的常用参数:
-trev 仅对负义链进行cds预测。 -tfor 仅对正义链进行cds预测。该参数是默认值。 -both 对负链都进行cds预测。 -genes 给出gene结构的结果,非常简单的exon信息结果。默认情况下仅输出适合人类阅读的比对结果。 -gff 给出gff格式的结果。 -cdna 给出cdna序列。 -pep 给出cds翻译出的蛋白质序列。 -splice [model/flat] 使用的split site是model(默认值)或GT/AG。 -help 给出帮助信息。 -version 给出版本信息。 -silent 标准错误输出不输出messages信息。 -quiet 标准错误输出不输出report/info信息。
genewise的运行原理简述:
1. genewise的算法:21:93算法是genewise的基础算法。该算法简单讲就是 Match-Insert-Delete,在蛋白质序列和DNA序列比对后能准确划定intron边界。算法将intron分成5部分:5'端splice site、中间intron主体、富含CT区域、连接区、3'端splice site。根据蛋白质序列和DNA序列的比对结果算出Intron部分,从而将DNA序列的CDS区分成了Match、Insert和Delete 3部分,再对这3部分进行蛋白质翻译或移码翻译,从而划定intron边界,得到CDS信息。 2. 6:23算法则是2:93算法的简单版本,也是软件的默认设置。和2:93算法相比,6:23算法的intron没有第3和第4部分(富含CT区域、连接区)。同时,6:23算法更适合于DNA序列中没有屏蔽重复或introns序列比较怪异的情况。使用该算法的时候,-intron参数的值得是tied(也是该参数默认的值),否则会得到错误的很长的intron结果。 3. 若是算法后面带个 L 字样,则表示适用于进行输入的蛋白质序列是 HMM 模型。此外, 还有其它的一些算法,可以参考wise2.pdf文件。 4. genewise对基因进行预测后,有一个得分。该得分 = log2(预测模型的可能性/随机结果的可能性) 。因此,0表示该结果是个随机的结果,不可靠的。根据软件作者的经验,得分高于35的结果是非常可靠的;得分25~35的结果是可信的;得分18~25的结果可能仅适用于某些蛋白质家族;得分低于15的是不可信的。
用临近物种的protein序列对基因组进行homolog gene预测的时候,需要通过blast将proteins序列和基因组序列进行比对,再提取基因组的目标基因区域和最佳结果protein进行genewise分析。因此,需要自己写一些程序进行并行化的genewise计算,从而达到对全基因组大数据的分析。Genewise软件提供了一支程序/opt/biosoft/wise2.4.1/src/perl/scripts/blastwise.pl程序能进行该项处理(我没有用过该程序,我自己写了想要的程序)。