1. GeneWise 简介

Genewise主要用于将蛋白质序列和DNA序列进行比对，从而对DNA序列上的编码区进行预测。

2. GeneWise 安装

$ wget http://www.ebi.ac.uk/~birney/wise2/wise2.4.1.tar.gz
$ tar zxf wise2.4.1.tar.gz -C /opt/biosoft/
$ cd /opt/biosoft/src

$ yum install *glib*
$ find ./ -name makefile | xargs sed -i 's/glib-config/pkg-config --libs glib-2.0/'
$ export C_INCLUDE_PATH=/usr/include/glib-2.0/:/usr/lib64/glib-2.0/include/:$C_INCLUDE_PATH
$ perl -p -i -e 's/getline/get_line/g' ./HMMer2/sqio.c
$ perl -p -i -e 's/isnumber/isdigit/' models/phasemodel.c
$ make all
$ export WISECONFIGDIR=/opt/biosoft/wise2.4.1/wisecfg/
$ make test
$ echo 'PATH=$PATH:/opt/biosoft/wise2.4.1/src/bin/' >> ~/.bashrc
$ echo 'export WISECONFIGDIR=/opt/biosoft/wise2.4.1/wisecfg/' >> ~/.bashrc 
$ source ~/.bashrc

3. GeneWise的使用

在GeneWise的安装目录下，有一个wise2.pdf文件，阐述了详细的genewise的使用方法。其软件最常用的命令是genewise。该命令的常用示例：

genewise protein.fasta dna.fasta -both -gff

程序输入的蛋白质序列和DNA序列分别是2个fasta文件。这两个fasta文件中仅有第一条序列是有效的，genewise仅对其中的2个第一条序列进行比对。以上示例对dna序列的正负链都进行cds预测，并将gff格式结果文件输出到标准输出。

genewise的常用参数：

-trev
    仅对负义链进行cds预测。
-tfor
    仅对正义链进行cds预测。该参数是默认值。
-both
    对负链都进行cds预测。
-genes
    给出gene结构的结果，非常简单的exon信息结果。默认情况下仅输出适合人类阅读的比对结果。
-gff
    给出gff格式的结果。
-cdna
    给出cdna序列。
-pep
    给出cds翻译出的蛋白质序列。
-splice [model/flat]
    使用的split site是model（默认值）或GT/AG。
-help
    给出帮助信息。
-version
    给出版本信息。
-silent
    标准错误输出不输出messages信息。
-quiet
    标准错误输出不输出report/info信息。

genewise的运行原理简述：

1. genewise的算法：21:93算法是genewise的基础算法。该算法简单讲就是 Match-Insert-Delete，在蛋白质序列和DNA序列比对后能准确划定intron边界。算法将intron分成5部分：5'端splice site、中间intron主体、富含CT区域、连接区、3'端splice site。根据蛋白质序列和DNA序列的比对结果算出Intron部分，从而将DNA序列的CDS区分成了Match、Insert和Delete 3部分，再对这3部分进行蛋白质翻译或移码翻译，从而划定intron边界，得到CDS信息。
2. 6:23算法则是2:93算法的简单版本，也是软件的默认设置。和2:93算法相比，6:23算法的intron没有第3和第4部分（富含CT区域、连接区）。同时，6:23算法更适合于DNA序列中没有屏蔽重复或introns序列比较怪异的情况。使用该算法的时候，-intron参数的值得是tied（也是该参数默认的值），否则会得到错误的很长的intron结果。
3. 若是算法后面带个 L 字样，则表示适用于进行输入的蛋白质序列是 HMM 模型。此外， 还有其它的一些算法，可以参考wise2.pdf文件。
4. genewise对基因进行预测后，有一个得分。该得分 = log2(预测模型的可能性/随机结果的可能性) 。因此，0表示该结果是个随机的结果，不可靠的。根据软件作者的经验，得分高于35的结果是非常可靠的；得分25~35的结果是可信的；得分18~25的结果可能仅适用于某些蛋白质家族；得分低于15的是不可信的。

4. GeneWise的高级使用

用临近物种的protein序列对基因组进行homolog gene预测的时候，需要通过blast将proteins序列和基因组序列进行比对，再提取基因组的目标基因区域和最佳结果protein进行genewise分析。因此，需要自己写一些程序进行并行化的genewise计算，从而达到对全基因组大数据的分析。Genewise软件提供了一支程序/opt/biosoft/wise2.4.1/src/perl/scripts/blastwise.pl程序能进行该项处理（我没有用过该程序，我自己写了想要的程序）。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

陈连福的生信博客

第22期培训班将于2024.01.27-2024.02.05期间在武汉市举办！

日度归档：2014 年 6 月 20 日

TEX 与 DVI 格式文件

GENEWISE 的使用

1. GeneWise 简介

2. GeneWise 安装

3. GeneWise的使用

4. GeneWise的高级使用