使用Misa结合Primer3来批量设计SSR引物

MISA,英文全称为MIcroSAtellite identification tool,即微卫星识别工具。

MISA是使用 perl 编写的一支程序,能识别出序列中的微卫星和复合微卫星(两个微卫星之间由由不多于100bp的碱基对隔开),并给出其所在位点。

MISA下载网址:http://pgrc.ipk-gatersleben.de/misa/misa.html

MISA用法:

$ misa.pl filename
misa.pl <FASTAfile>
其中,fastfile是序列文件,同时在运行程序的工作目录下必须有一个名称为“misa.ini”
的文件。该文件内容为:
definition(unit_size,min_repeats): 1-10 2-6 3-5 4-5 5-5 6-5
interruptions(max_difference_for_2_SSRs): 100 
该文件指定了misa的参数,即1个碱基重复10次及10次以上;2个碱基重复6次及6 次以上;
3个碱基重复5次及5次以上;4个碱基重复5次及5次以上;5个碱基重复5 次及5次以上;6碱
基重复5次及5次以上,这样的碱基重复序列才算是微卫星序列。 同时,两个微卫星之间的距
离小于100bp的时候,两个微卫星组成一个复合微卫星。

MISA的输出结果:

MISA会在 Fastafile 所在的文件夹下生成两个文件,分别是 “<FASTfile>.misa” 和 “<FASTfile>.statistics”

"<FASTfile>.misa" :以表格的形式列出微卫星的类型和位点;
"<FASTfile>.statistics" :统计微卫星的类型和频数。

在MISA的下载页面中,提供了3个附加的 perl 脚本,分别是:Get_est_trimmer.plp3_in.plp3_out.pl

由于MISA程序读取fasta文件中的序列ID,将序列ID中的空格用下划线 ”_” 填补了,所以在fasta文件中,其序列ID最好不要有空格。否则运行接下来的程序时,会出问题。

Get_est_trimmer.pl

针对EST序列,可以除去EST序列中短的序列和两端不明确的碱基。

p3_in.pl

输入 misa.pl 的输出结果,将引物设计的参数文件(模板,产物长度,目标区域等)导入到一个以“p3in”为后缀的文件中。

$ p3_in.pl filename.misa

 调用 primer3_core

该软件详细解说见:http://www.hzaumycology.com/chenlianfu_blog/?p=284,生成结果文件 filename.p3in。使用primer3-2.3.5版本的时候,MISA官网提供的p3_in.pl的结果不符合primer3-2.3.5的输入格式,故需要修改p3_in.pl和p3_out.pl文件。

 $ primer3_core -default_version=1 -output=filename.p3out filename.p3in

 p3_out.pl

对primer3产生的文件进行提取合,得到最后的结果文件 filename.result

$ p3_out.pl filename.p3out filename.misa

p3_in.pl 和 p3_out.pl 这两支程序需要修改才能正常使用。

修改过后的两支程序下载:p3_in.plp3_out.pl

结果文件示例

ID      SSR nr. SSR type        SSR     size    start   end     FORWARD PRIMER1 (5'-3') Tm(°C)  size    REVERSE PRIMER1 (5'-3') Tm(°C)  size    PRODUCT1 size (bp)      start (bp)      end (bp)        FORWARD PRIMER2 (5'-3') Tm(°C)  size    REVERSE PRIMER2 (5'-3') Tm(°C)  size    PRODUCT2 size (bp)      start (bp)      end (bp)        FORWARD PRIMER3 (5'-3') Tm(°C)  size    REVERSE PRIMER3 (5'-3') Tm(°C)  size    PRODUCT3 size (bp)      start (bp)      end (bp)
scaffold1_254817_bp     1       p3      (GCC)5  15      17114   17128   TGATGTCCTAGTGCGTCTCG    60.008  20      CATCCTGTCTTTGAACGGGT    59.966  20      226     17022   17247   TGATGTCCTAGTGCGTCTCG    60.008  20      ACATCCTGTCTTTGAACGGG    59.966  20      227     17022   17248   TGATGTCCTAGTGCGTCTCG    60.008  20      TGAGGGAGTTGTGGTGATGA    60.088  20      142     17022   17163
scaffold1_254817_bp     2       p1      (T)10   10      116694  116703  ATTGCAACCACCAAAGAAGG    59.971  20      CTCCAGGCGCTACGTTAATC    59.867  20      151     116600  116750  TCCCTACTGCATTGACCTCC    60.073  20      CTCCAGGCGCTACGTTAATC    59.867  20      223     116528  116750  ACACTGCCTTCGATTCATCC    60.081  20      CTCCAGGCGCTACGTTAATC    59.867  20      246     116505  116750
scaffold1_254817_bp     3       p3      (TTG)5  15      142162  142176  TCCACAACCCAATTTACGGT    60.088  20      CCAGAGTATGCCTGGTTCGT    60.134  20      212     142004  142215  GTCCACAACCCAATTTACGG    60.088  20      CCAGAGTATGCCTGGTTCGT    60.134  20      213     142003  142215  GCCAGTTTTGACAGGCGTAT    60.140  20      CCAGAGTATGCCTGGTTCGT    60.134  20      236     141980  142215
scaffold1_254817_bp     4       p3      (AGG)5  15      145861  145875  TTCGAGCTCGTCTGGTAGGT    60.012  20      ATTTATCGTCCAGTGCCCAG    59.955  20      212     145725  145936  GTTCGAGCTCGTCTGGTAGG    60.012  20      ATTTATCGTCCAGTGCCCAG    59.955  20      213     145724  145936  GGTTCGAGCTCGTCTGGTAG    60.012  20      ATTTATCGTCCAGTGCCCAG    59.955  20      214     145723  145936
scaffold1_254817_bp     5       p3      (CAT)6  18      182964  182981  TGTAGAGGGAGGCTGAGGAA    59.943  20      TTGCGAAAAGCAAGGAGAGT    60.132  20      270     182913  183182  TGTAGAGGGAGGCTGAGGAA    59.943  20      GCAAGGAGAGTCGGGTATGA    60.218  20      261     182913  183173  TGTAGAGGGAGGCTGAGGAA    59.943  20      AAAAGCAAGGAGAGTCGGGT    60.247  20      265     182913  183177
scaffold1_254817_bp     6       p3      (GAT)5  15      220964  220978  ATTGATACCGGTGGGTGAAA    60.051  20      TTGAAGGAACTTCGAATGGG    60.044  20      263     220929  221191  ATTGATACCGGTGGGTGAAA    60.051  20      TCGAATGGGATCAACTTTCC    59.871  20      252     220929  221180  ATTGATACCGGTGGGTGAAA    60.051  20      GGAACTTCGAATGGGATCAA    59.871  20      258     220929  221186
scaffold1_254817_bp     7       p2      (TA)7   14      249504  249517  TACCATGAGAAGGGGGAATG    59.744  20      TTTTCTCGACACGTCTGCAC    60.032  20      230     249469  249698  AGAAGGGGGAATGCAAAGTC    60.443  20      TTTTCTCGACACGTCTGCAC    60.032  20      223     249476  249698  GAGAAGGGGGAATGCAAAGT    60.443  20      TTTTCTCGACACGTCTGCAC    60.032  20      224     249475  249698
scaffold2_167145_bp     1       p3      (CTG)7  21      3622    3642    GGAGATATTTCCTCAGGGGC    59.866  20      AGGCAATGTCGATGCTATCC    60.066  20      240     3445    3684    AGAAGCAGAAGGAGGTGCAG    59.745  20      AGGCAATGTCGATGCTATCC    60.066  20      184     3501    3684    GGGAGATATTTCCTCAGGGG    59.722  20      AGGCAATGTCGATGCTATCC    60.066  20      241     3444    3684
scaffold2_167145_bp     2       p2      (AT)6   12      82759   82770   CCATCCCTCTTCCTCTTCCT    59.630  20      ACAAGGTGATGCACAATCCA    59.967  20      222     82648   82869   CCATCCCTCTTCCTCTTCCT    59.630  20      CACAAGGTGATGCACAATCC    59.967  20      223     82648   82870   CCATCCCTCTTCCTCTTCCT    59.630  20      CCACAAGGTGATGCACAATC    59.967  20      224     82648   82871
scaffold3_156598_bp     1       c       (GGA)5(GGT)5    30      70534   70563   GGTGGATGTATTGGATTGCC    60.021  20      GGCATGAACGACTTTTTGCT    60.257  20      183     70469   70651   GGGTGGATGTATTGGATTGC    60.021  20      GGCATGAACGACTTTTTGCT    60.257  20      184     70468   70651   TGGTCATCGAGCTGATGGTA    60.225  20      GGCATGAACGACTTTTTGCT    60.257  20      229     70423   70651
scaffold3_156598_bp     2       p3      (CGC)6  18      80301   80318   CCGAAAAGGCCATTAGTTCA    60.067  20      ACGACGAATGAAACCCTTTG    59.971  20      255     80206   80460   CCGAAAAGGCCATTAGTTCA    60.067  20      TTGGGGTGAGTTCCTTATCG    59.926  20      238     80206   80443   TCTTTTGACTTCGATGCCCT    59.813  20      ACGACGAATGAAACCCTTTG    59.971  20      216     80245   80460

使用Misa结合Primer3来批量设计SSR引物》上有19条评论

  1. p3_out.pl

    对primer3产生的文件进行提取合,得到最后的结果文件 filename.result

    $ p3_out.pl filename.p3out filename.misa
    —————————————————————-
    是否应该是$ p3_out.pl filename.p3out filename.result???

  2. I had used MISA for the identification of SSRs. However i find problem in incorporating the Primer3 interface modules after the identification of SSRs using MISA. I had downloaded the interface modules and have prepared a file using p3_in.pl (results.txt.p3in).But i have problems in calling the primer3_core and further steps. Can you please tell me how to proceed further? I have downloaded the Primer3 software from sourceforge. can you please tell the commands that i need to incorporate further for getting a set of primers?

  3. 您好,急切想得到您的回复

    我刚才用最开始用的网上提供的p3_in.pl做的,前面步骤都没问题,然后用这个程序做得到的文件是空字符的呢?
    您前面说了这个文件需要修改了才能运行,我按照您贴出来的代码修改了之后,运行显示的还是空字符,请问是什么原因导致的呢?
    现在这里我进行不了了
    急切期待您的回复,谢谢呢!

  4. 您好,我目前遇到一个棘手问题,我下载了一个2.2G大小的全基因组序列,用MISA运行后得到“.misa” 和 “.statistics”两个文件;然后我找不到设置引物设计参数的文件;所以我直接没有设计就运行下一步,可是用p3_in.pl运行p3_in.pl文件名.fasta.misa的时候得到的结果超过了400G,导致硬盘容量不足而结束了。现在实验无法继续下去,不知道我哪里出了问题。求助啊!谢谢!

    • 您好,我也遇到了这个问题,p3_in.pl的输出文件巨大,是不是程序本身还是有问题呢,我的FASTA文件是这样的>chr1
      ACAACACTCACCTTCCCTCACTGATGCATGACATGTGGATTTGCCTTCCCTGTCCACGACTGCATGAAGCACCTGCAGAGA

  5. 你好,我想问一下帖子里primer3_core的安装步骤是在linux系统下进行的吗,能不能提供在windows下安装primer3的方法?谢谢

发表评论

电子邮件地址不会被公开。 必填项已用*标注