MISA,英文全称为MIcroSAtellite identification tool,即微卫星识别工具。
MISA是使用 perl 编写的一支程序,能识别出序列中的微卫星和复合微卫星(两个微卫星之间由由不多于100bp的碱基对隔开),并给出其所在位点。
MISA下载网址:http://pgrc.ipk-gatersleben.de/misa/misa.html
MISA用法:
$ misa.pl filename misa.pl <FASTAfile> 其中,fastfile是序列文件,同时在运行程序的工作目录下必须有一个名称为“misa.ini” 的文件。该文件内容为: definition(unit_size,min_repeats): 1-10 2-6 3-5 4-5 5-5 6-5 interruptions(max_difference_for_2_SSRs): 100 该文件指定了misa的参数,即1个碱基重复10次及10次以上;2个碱基重复6次及6 次以上; 3个碱基重复5次及5次以上;4个碱基重复5次及5次以上;5个碱基重复5 次及5次以上;6碱 基重复5次及5次以上,这样的碱基重复序列才算是微卫星序列。 同时,两个微卫星之间的距 离小于100bp的时候,两个微卫星组成一个复合微卫星。
MISA的输出结果:
MISA会在 Fastafile 所在的文件夹下生成两个文件,分别是 “<FASTfile>.misa” 和 “<FASTfile>.statistics”
"<FASTfile>.misa" :以表格的形式列出微卫星的类型和位点; "<FASTfile>.statistics" :统计微卫星的类型和频数。
在MISA的下载页面中,提供了3个附加的 perl 脚本,分别是:Get_est_trimmer.pl,p3_in.pl 和 p3_out.pl。
由于MISA程序读取fasta文件中的序列ID,将序列ID中的空格用下划线 ”_” 填补了,所以在fasta文件中,其序列ID最好不要有空格。否则运行接下来的程序时,会出问题。
Get_est_trimmer.pl
针对EST序列,可以除去EST序列中短的序列和两端不明确的碱基。
p3_in.pl
输入 misa.pl 的输出结果,将引物设计的参数文件(模板,产物长度,目标区域等)导入到一个以“p3in”为后缀的文件中。
$ p3_in.pl filename.misa
调用 primer3_core
该软件详细解说见:http://www.hzaumycology.com/chenlianfu_blog/?p=284,生成结果文件 filename.p3in。使用primer3-2.3.5版本的时候,MISA官网提供的p3_in.pl的结果不符合primer3-2.3.5的输入格式,故需要修改p3_in.pl和p3_out.pl文件。
$ primer3_core -default_version=1 -output=filename.p3out filename.p3in
p3_out.pl
对primer3产生的文件进行提取合,得到最后的结果文件 filename.result
$ p3_out.pl filename.p3out filename.misa
p3_in.pl 和 p3_out.pl 这两支程序需要修改才能正常使用。
修改过后的两支程序下载:p3_in.pl 和 p3_out.pl。
结果文件示例
ID SSR nr. SSR type SSR size start end FORWARD PRIMER1 (5'-3') Tm(°C) size REVERSE PRIMER1 (5'-3') Tm(°C) size PRODUCT1 size (bp) start (bp) end (bp) FORWARD PRIMER2 (5'-3') Tm(°C) size REVERSE PRIMER2 (5'-3') Tm(°C) size PRODUCT2 size (bp) start (bp) end (bp) FORWARD PRIMER3 (5'-3') Tm(°C) size REVERSE PRIMER3 (5'-3') Tm(°C) size PRODUCT3 size (bp) start (bp) end (bp) scaffold1_254817_bp 1 p3 (GCC)5 15 17114 17128 TGATGTCCTAGTGCGTCTCG 60.008 20 CATCCTGTCTTTGAACGGGT 59.966 20 226 17022 17247 TGATGTCCTAGTGCGTCTCG 60.008 20 ACATCCTGTCTTTGAACGGG 59.966 20 227 17022 17248 TGATGTCCTAGTGCGTCTCG 60.008 20 TGAGGGAGTTGTGGTGATGA 60.088 20 142 17022 17163 scaffold1_254817_bp 2 p1 (T)10 10 116694 116703 ATTGCAACCACCAAAGAAGG 59.971 20 CTCCAGGCGCTACGTTAATC 59.867 20 151 116600 116750 TCCCTACTGCATTGACCTCC 60.073 20 CTCCAGGCGCTACGTTAATC 59.867 20 223 116528 116750 ACACTGCCTTCGATTCATCC 60.081 20 CTCCAGGCGCTACGTTAATC 59.867 20 246 116505 116750 scaffold1_254817_bp 3 p3 (TTG)5 15 142162 142176 TCCACAACCCAATTTACGGT 60.088 20 CCAGAGTATGCCTGGTTCGT 60.134 20 212 142004 142215 GTCCACAACCCAATTTACGG 60.088 20 CCAGAGTATGCCTGGTTCGT 60.134 20 213 142003 142215 GCCAGTTTTGACAGGCGTAT 60.140 20 CCAGAGTATGCCTGGTTCGT 60.134 20 236 141980 142215 scaffold1_254817_bp 4 p3 (AGG)5 15 145861 145875 TTCGAGCTCGTCTGGTAGGT 60.012 20 ATTTATCGTCCAGTGCCCAG 59.955 20 212 145725 145936 GTTCGAGCTCGTCTGGTAGG 60.012 20 ATTTATCGTCCAGTGCCCAG 59.955 20 213 145724 145936 GGTTCGAGCTCGTCTGGTAG 60.012 20 ATTTATCGTCCAGTGCCCAG 59.955 20 214 145723 145936 scaffold1_254817_bp 5 p3 (CAT)6 18 182964 182981 TGTAGAGGGAGGCTGAGGAA 59.943 20 TTGCGAAAAGCAAGGAGAGT 60.132 20 270 182913 183182 TGTAGAGGGAGGCTGAGGAA 59.943 20 GCAAGGAGAGTCGGGTATGA 60.218 20 261 182913 183173 TGTAGAGGGAGGCTGAGGAA 59.943 20 AAAAGCAAGGAGAGTCGGGT 60.247 20 265 182913 183177 scaffold1_254817_bp 6 p3 (GAT)5 15 220964 220978 ATTGATACCGGTGGGTGAAA 60.051 20 TTGAAGGAACTTCGAATGGG 60.044 20 263 220929 221191 ATTGATACCGGTGGGTGAAA 60.051 20 TCGAATGGGATCAACTTTCC 59.871 20 252 220929 221180 ATTGATACCGGTGGGTGAAA 60.051 20 GGAACTTCGAATGGGATCAA 59.871 20 258 220929 221186 scaffold1_254817_bp 7 p2 (TA)7 14 249504 249517 TACCATGAGAAGGGGGAATG 59.744 20 TTTTCTCGACACGTCTGCAC 60.032 20 230 249469 249698 AGAAGGGGGAATGCAAAGTC 60.443 20 TTTTCTCGACACGTCTGCAC 60.032 20 223 249476 249698 GAGAAGGGGGAATGCAAAGT 60.443 20 TTTTCTCGACACGTCTGCAC 60.032 20 224 249475 249698 scaffold2_167145_bp 1 p3 (CTG)7 21 3622 3642 GGAGATATTTCCTCAGGGGC 59.866 20 AGGCAATGTCGATGCTATCC 60.066 20 240 3445 3684 AGAAGCAGAAGGAGGTGCAG 59.745 20 AGGCAATGTCGATGCTATCC 60.066 20 184 3501 3684 GGGAGATATTTCCTCAGGGG 59.722 20 AGGCAATGTCGATGCTATCC 60.066 20 241 3444 3684 scaffold2_167145_bp 2 p2 (AT)6 12 82759 82770 CCATCCCTCTTCCTCTTCCT 59.630 20 ACAAGGTGATGCACAATCCA 59.967 20 222 82648 82869 CCATCCCTCTTCCTCTTCCT 59.630 20 CACAAGGTGATGCACAATCC 59.967 20 223 82648 82870 CCATCCCTCTTCCTCTTCCT 59.630 20 CCACAAGGTGATGCACAATC 59.967 20 224 82648 82871 scaffold3_156598_bp 1 c (GGA)5(GGT)5 30 70534 70563 GGTGGATGTATTGGATTGCC 60.021 20 GGCATGAACGACTTTTTGCT 60.257 20 183 70469 70651 GGGTGGATGTATTGGATTGC 60.021 20 GGCATGAACGACTTTTTGCT 60.257 20 184 70468 70651 TGGTCATCGAGCTGATGGTA 60.225 20 GGCATGAACGACTTTTTGCT 60.257 20 229 70423 70651 scaffold3_156598_bp 2 p3 (CGC)6 18 80301 80318 CCGAAAAGGCCATTAGTTCA 60.067 20 ACGACGAATGAAACCCTTTG 59.971 20 255 80206 80460 CCGAAAAGGCCATTAGTTCA 60.067 20 TTGGGGTGAGTTCCTTATCG 59.926 20 238 80206 80443 TCTTTTGACTTCGATGCCCT 59.813 20 ACGACGAATGAAACCCTTTG 59.971 20 216 80245 80460