基因测序技术研究进展

    基因组序列是开展遗传研究重要的信息基础,自人类基因组计划完成以来,基因组学进入功能研究时代。基因组研究技术引入水产动物的研究后,推进了水产动物基因组的结构和功能研究,解析和诠释了水产动物生物学现象的遗传基础和分子机制,在遗传育种,疾病防治和医药等方面的研究应用也取得较大进展。本文介绍了第一、二和三代测序技术的整个发展历程以及各自的优缺点和主要测序技术或平台。

    第一代测序技术

    1975年,Sanger等提出双脱氧链合成终止法测序技术[1],测定了第一个基因组序列—噬菌体X174 [2],人类首次实现了对生物遗传信息的解码,开启了全基因组测序时代。1977年,A.M.Maxam和W.Gilbert建立了DNA片段序列的测定方法,即 Maxam-Gilbert 化学降解法[3],该测序法对未经克隆的 DNA 片段可以直接测序。但是化学降解法过程操作繁琐,对有毒化学品和放射性同位素接触较多,逐渐被双脱氧链终止法替代。20世纪80年代,在sanger法理论基础上,出现了荧光自动测序技术,1986年,美国应用生物系统公司(Applied Biosystems Inc,ABI)推出的第一代商用ABI 370A测序仪可在双脱氧核苷酸上直接标记不同颜色荧光基团;1998年,ABI采用其开发的毛细管凝胶电泳技术,推出的ABI Prism3700毛细管测序仪可同时进行96个并行测序反应,真正实现了测序规模化[4-5]。

    以上测序技术均被称为第一代测序技术,其中双氧链终止法的应用最为广泛,因此第一代测序也常认为是sanger测序。一代测序技术测序读长长,准确率高,主要用于PCR产物测序、小片段序列分析和基因分型等研究,对生物学研究具有重要意义,至今在世界范围内仍在使用。但是,一代测序的通量低,成本高,限制了其大规模高通量的应用。

    第二代测序技术

    尽管第一代DNA测序技术以其可达 1000 bp 的测序读长、99.999% 的高準确性帮助人们完成了大量的测序工作,但其测试速度慢、成本高、通量低等方面的不足,也致使其不能得到大众化的应用。进入21世纪,随着科学技术的进步以及科研人员对测序技术的努力开发,以Roche公司的454技术[6]、illumina公司的Solexa[7],Hiseq技术和ABI公司的SOLiD技术[8]为标志的第二代测序技术诞生,又称下一代测序技术(next generation sequencing,NGS)。

    2005年,Roche 公司的454 技术是第一个商业化的二代测序平台,初期被很多研究者使用, 454技术优势测序读长较长,平均可达400bp[9],缺点是无法准确测量类似于PolyA的情况时,测序反应会一次加入多个T,可能导致结果不准确。也正是由于这一原因,454技术会在测序过程中引入插入和缺失的测序错误。

    Solexa 分析仪通常也被称为 Illumina 测序仪,所使用的方法是克隆单分子阵列技术。Illumina的测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换。而读长短(200bp-500bp)也让其应用有所局限。

    HeliScope测序仪在第二代的基础上引入了单分子测序[10]的概念,被称为2.5代,测序前不进行PCR 扩增,克服了第二代测序技术中需要用PCR扩增来增强莹光信号的技术难题,不进行DNA 扩增避免了扩增时引入的错误和偏好性,但是读长较短(25 ~ 30 bp),导致拼接困难、质量低,仪器成本高,并未大规模应用。

    除此之外,Ion Torrent 测序仪是第一个不需要光学系统的商业测序仪,是非常适合扩增子测序的革命性技术。与其他技术相比,Ion Torrent 测序不需要昂贵的物理成像设备,实现了高密度高通量阵列的制作[11],它测序时间短,速度快,仪器设备便宜,但芯片的通量并不高,非常适合小基因组和外显子验证的测序。

    在过去的十多年里,二代测序技术迅猛发展,凭借其低成本、高通量的优势在很多领域得到了应用,在很多探索性研究中,如对新物种基因组的de novo 测序、目标区域或全基因组重测序、转录组测序、宏基因组测序、表观修饰测序等领域都取得了突破性的进展。第二代测序技术虽然已经得到了广泛的应用,在各技术方面趋于成熟,但是依然依赖于模板扩增、荧光分析、序列读长限制等缺点,以及不可避免的系统误差,这些缺点都在一定程度上的制约了第二代测序技术的应用和发展。

    第三代测序技术

    测序技术经过第一代、第二代的发展,读长从一代测序的近1000bp,降到了二代测序的几百bp,通量和速度大幅提升,那么第三代测序的发展思路在于保持二代测序的速度和通量优势同时,弥补其读长较短的劣势。三代测序与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增,实现了对每一条DNA分子的单独测序。第三代测序技术也叫从头测序技术,即单分子实时DNA测序。

    第三代测序技术主要包括第三代测序技术主要包括Helicos公司的真正单分子测序技术、Oxford Nanoporetech公司的单分子纳米孔测序技术、Pacific Biosciences (PacBio)公司的单分子实时测序技术等。Helicos 公司的Heliscope是第一个商业化的单分子测序平台,该技术基于边合成边测序的思想,将DNA随机打断成小片段分别进行dNTP荧光标记,经过不断地重复合成、洗脱、成像、淬灭过程完成测序。但是其读长短,存在很多技术限制,并未得到广泛应用。

    ONT(Oxford Nanopore Technologies)纳米孔单分子测序技术优点是读长很长,大约在几十kb,甚至100 kb;通量很高;数据可实时读取;样品制备简单又便宜;可直接测序RNA。但错误率目前相比较高,且是随机错误,而不是聚集在读取的两端。

    下一代测序技术已成为基因组学研究中应用最广泛的测序技术,但在处理高GC含量基因组时也存在固有缺陷。最近,由美国Pacific Bioscience开发的单分子实时测序 (inglemolecule Real-time,SMRT)作为第三代测序策略被引入,以弥补这一不足。虽然现在Oxford Nanopore 测序仪也逐渐投入了市场,但是由于它的推广及使用都不如PacBio,因此,目前三代的测序主流还是以PacBio为主[12]。

    二代和三代测序各有所长,二代测序读长短、通量高、准确度和性价比高,而读长长、通量低、错误率高、单碱基成本高是三代测序的特点。利用二代测序高通量和准确度高的短读长片段对三代测序的长读长片段进行修正,以降低三代测序的费用和错误率。三代测序技术在基因组测序(多倍体或大量重复序列),甲基化研究,突变鉴定以及RNA直接测序等领域有显著优势。除此之外,三代测序的缺点也存在缺陷:单读长的错误率偏高,需重复测序以纠错(增加测序成本);依赖DNA聚合酶的活性;成本较高(二代Illumina的测序成本是每100万个碱基0.05-0.15美元,三代测序成本是每100万个碱基0.33-1.00美元)。生信分析软件不够丰富、数据积累少等。

    参考文献:

    [1] SANGER F ,NICKLEN S ,COULSON A R .DNA sequencing with chain-terminating inhibitors [J].Proceedings of the N ational A cademy o f Sciences,1977,74(12):5463-5467 .

    [2] Sedat J,Ziff E,Galibert F. Direct determination of DNA nucleotide sequences. Structure of large specific fragments of bacteriophage φX174 DNA[J]. Journal of Molecular Biology,1976,107(4):391-416.

    [3] Maxam A M,Gilbert W. A new method for sequencing DNA[J]. Proceedings of the National Academy of Sciences of the United States of America,1977,74(2):560-564.

    [4] Prober JM, Trainor GL, Dam RJ, et al. A system for rapid DNA sequencing with fluorescent chain-terminating dideoxynucleotides. Science. 1987;238(4825):336–341.

    [5] VALENCIA C A,PERVAIZ M A,HUSAMI A,et al.A survey of next-generation-sequencing technologies[M].New York,2013:13-24.

    [6] Margulies M,Egholm M,Altman W E,et al. Genome sequencing in open microfabricated high density picoliter reactors[J]. Nature, 2005, 437(7057):376-380.

    [7] Fedurco M,Romieu A,Williams S,et al. BTA,a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies[J]. Nucleic Acids Research,2006,34(3):e22.

    [8] Shendure J,Porreca G J,Reppas N B,et al. Accurate multiplex polony sequencing of an evolved bacterial genome[J]. Science,2005,309(5741):1728-1732.

    [9] Eid J,Fehr A,Gray J,et al. Real-time DNA sequencing from single polymerase molecules[J]. Science,2009,323(5910):133-138.

    [10] METZKER M L .Sequencing technologies the next generation[J].N ature Rev iews Genetics,2010,11(1):31-46 .

    [11] ROTHBERG J M,HINZ W,REARICKTM,et al .An integrated semiconductor device enabling nonoptical genome sequencing[J].N ature,2011,475(7356):348-352 .

    [12]鐘伟民,张兴坦,赵茜, 等.三代测序PacBio在转录组研究中的应用[J].福建农林大学学报(自然科学版),2018,47(5):524-529. DOI:10.13323/j.cnki.j.fafu(nat.sci.).2018.05.002.

    王锦秀 辽宁师范大学