[转载]第三代基因组测序技术原理介绍

从1977开始,第一代DNA测序技术(桑格法)【1】已经发展了30多年,测序技术取得了长足的进步。从第一代到第三代甚至第四代,测序阅读长度都是由长到短,再由短到长。虽然从目前的情况来看,第二代短读和长读测序技术在全球测序市场上仍然占据着绝对的主导地位,但第三代和第四代测序技术也在近两年得到了快速发展。测序技术的每一次变革,也极大地推动了基因组研究、疾病医学研究、药物研发、育种等领域。这里我主要对目前的测序技术及其测序原理做一个简单的总结。

生命遗传信息的快速获取对生命科学的研究具有重要意义。上图1(右击图片查看大图,下同)描述了自1953年Watson和Crick建立DNA双螺旋结构以来,整个测序技术的发展。

第一代测序技术

第一代DNA测序技术采用的是桑格和库尔森在1975年开创的链终止法或无极生组合和吉尔伯特在1976-1977年发明的化学法(链降解),完成于1977年。从此,人类获得了窥探生命中基因差异本质的能力,开始进入基因组学时代。研究者们在多年的实践中不断改进桑格方法。2001,第一张人类基因组图谱是在改进的桑格方法基础上完成的。桑格法的核心原理是,由于ddNTP的2’和3’都不含羟基,所以在DNA合成过程中不能形成磷酸二酯键,所以可以用来中断DNA合成反应。在四个DNA合成反应体系中加入一定比例的带有放射性同位素标记的ddNTP(包括ddtp、ddCTP、ddGTP和ddTTP),经凝胶电泳和放射自显影后,根据电泳带的位置即可确定待测分子的DNA序列(图2)。这个网站为桑格测序法做了一个短片,形象生动。

值得注意的是,测序技术发展初期,除了桑格法,还出现了一些其他测序技术,如焦磷酸测序法、连接酶法等。其中焦磷酸测序是罗氏公司454技术后来使用的测序方法2-4,连接酶测序是ABI公司固相技术后来使用的测序方法2-4,但它们共同的核心手段是dNTP,可以中断Sanger1中的DNA合成反应。

第二代测序技术

总的来说,第一代测序技术的主要特点是测序的阅读长度可以达到1000bp,准确率高达99.999%。但其测序成本高、通量低等缺点严重影响了其真正的大规模应用。所以第一代测序技术并不是最好的测序方法。经过不断的技术发展和完善,以罗氏的454技术、illumina的Solexa、Hiseq技术和ABI的Solid技术为标志的第二代测序技术诞生了。第二代测序技术大大降低了测序成本,同时也大大提高了测序速度,保持了较高的准确性。以前完成一个人类基因组的测序需要三年时间,而使用第二代测序技术只需要1周,但序列阅读长度比第一代测序技术短得多。表1和图3对第一代测序技术的特点和第二代测序成本做了简单的比较。5.我将简单介绍这三种主要的第二代测序技术的主要原理和特点。

照明

Illumina公司的Solexa和Hiseq应该说是目前世界上使用量最大的第二代测序机,这两个系列的技术核心原理是一样的。这两个系列的机器采用边合成边排序的方法,其排序过程主要分为以下四个步骤,如图4所示。

?待测(1)DNA文库的构建

目前,除了组装和其他一些特殊要求外,主要是将待测DNA样品断裂成200-500bp长的序列片段,在这些小片段的两端加入不同的接头,构建单链DNA文库。

?(2)流通池

流动池是吸附流动DNA片段的通道。构建文库时,这些文库中的DNA在通过流通池时会随机附着在流通池表面的通道上。每个流通池有8个通道,每个通道的表面附着有许多接头,可以与数据库构建过程中添加在DNA片段两端的接头配对(这也是为什么流通池可以吸附数据库构建后的DNA),并可以支持其表面DNA的桥PCR扩增。

?(3)桥接PCR扩增和变性

桥PCR利用固定在流通池表面的接头作为模板进行桥扩增,如图4所示。A..经过反复的扩增和变性循环后,每个DNA片段最终会在自己的位置上集中成束,每个束都含有单个DNA模板的许多拷贝。这个过程的目的是放大碱基的信号强度,以满足测序的信号要求。

(4)排序

测序方法采用边合成边测序的方法。将DNA聚合酶、接头引物和具有碱基特异性荧光标记的4-dNTP同时加入到反应体系中(如Sanger测序法)。这些dNTP的3'-OH是用化学方法保护的,所以一次只能加一个dNTP。dNTP加入合成链后,所有未使用的游离dNTP和DNA聚合酶将被洗掉。然后加入激发荧光所需的缓冲液,用激光激发荧光信号,用光学设备记录荧光信号。最后,通过计算机分析将光信号转换成测序碱基。记录荧光信号后,加入化学试剂淬灭荧光信号,去除dNTP 3’-OH保护基,以便进行下一步测序反应。Illumina的测序技术每次只增加一个dNTP,可以解决精确测量均聚物长度的问题。其测序误差的主要来源是碱基置换。目前其测序错误率在1%到1.5%之间。以人类基因组重测序为例,30x的测序深度约为1周。

罗氏454

罗氏454测序系统是第二代测序技术商业化运营的第一个平台。其主要排序原理是(图5 abc)2:

(1)DNA文库的制备

454测序系统的文件构建方法与illumina的不同。它通过喷雾法将待测DNA断裂成长度为300-800bp的小片段,并在片段两端加入不同的接头,或对待测DNA变性后进行PCR扩增,连接载体构建单链DNA文库(图5a)。

(2)乳液聚合酶链反应(乳液聚合酶链反应,实际上是一种独特的注水成油过程)

当然,DNA扩增过程与illumina的有很大不同。它将这些单链DNA与直径约28um的水油包被的磁珠结合,孵育并退火。

乳液PCR最大的特点是可以形成大量独立的反应空间进行DNA扩增。关键技术是“注水成油”(水包油)。基本过程是在PCR反应前,将含有PCR所有反应成分的水溶液注射到高速旋转的矿物油表面,水溶液瞬间形成无数包裹在矿物油中的小水滴。这些水滴形成了一个独立的PCR反应空间。理想情况下,每个液滴只包含一个DNA模板和一个磁珠。

这些涂有水滴的珠子表面含有与接头互补的DNA序列,因此这些单链DNA序列可以特异性地与珠子结合。同时,孵育体系中含有PCR试剂,因此保证了每个与磁珠结合的小片段都能被PCR独立扩增,扩增产物仍能与磁珠结合。当反应完成后,可以破坏孵育系统,富集带有DNA的磁珠。扩增后,每个小片段将被扩增约654.38+0万倍,从而达到下一次测序所需的DNA量。

(3)焦磷酸测序

在测序之前,需要用聚合酶和单链结合蛋白处理带有DNA的磁珠,然后将磁珠放在PTP板上。这种板专门配有许多直径约44um的小孔,每个小孔只能容纳一个磁珠。这样,每个磁珠的位置被固定,以便检测下一个测序反应过程。

测序方法采用焦磷酸测序法,将直径小于PTP板上孔的磁珠放入孔中开始测序反应。测序反应以磁珠上扩增的大量单链DNA为模板,在每个反应中加入dNTP进行合成。如果dNTP能与待测序列配对,合成后会释放出焦磷酸基团。释放的焦磷酸基团会与反应体系中的ATP硫酸化学酶反应生成ATP。生成的ATP和荧光素酶一起被氧化,使测序反应中的荧光素分子发出荧光,并被PTP板另一侧的CCD相机记录下来,最后通过计算机的光信号处理得到最终的测序结果。由于每个dNTP在反应中产生的荧光颜色不同,根据荧光颜色可以判断被检测分子的序列。反应结束后,游离的dNTP会在双磷酸酶的作用下降解ATP,导致荧光猝灭,从而使测序反应进入下一个循环。在454测序技术中,每一个测序反应都在PTP板上的一个独立的孔中进行,因此可以大大减少相互干扰和测序偏差。454技术最大的优势是可以获得很长的阅读长度。目前454技术平均阅读长度可达400bp,与illumina的Solexa和Hiseq技术有所区别。它的主要缺点是不能精确测量均聚物的长度。例如,当序列中存在类似PolyA的东西时,测序反应中会一次性加入多个T,加入的T的数量只能通过荧光强度来估计,这可能导致结果不准确。也是因为这个原因,454技术会在测序过程中引入插入和缺失测序错误。

固体技术

固体测序技术是ABI公司在2007年开始投入商业测序应用的仪器。它基于连接酶法,即在连接过程中使用DNA连接酶进行测序(图6)2,4。其原理是:

(1)DNA文库的构建

将片段中断,在片段两端添加测序接头,连接载体,构建单链DNA文库。

(2)乳液PCR

固体的PCR过程和454差不多,用的是同样的方法,但是这些珠子比454系统的小很多,只有1um。同时对扩增产物的3’端进行修饰,为下一步测序过程做准备。3’修饰的微球将被沉积在载玻片上。在装载微球的过程中,沉积室将每个载玻片分成1、4或8个测序区域(图6-a)。固体系统最大的优点是每个载玻片可以容纳比454更高密度的珠子,在同一个系统中很容易实现更高的通量。

(3)连接酶测序

这一步在固体测序中是独特的。它不使用以前测序中常用的DNA聚合酶,而是使用连接酶。固相连接反应的底物是8碱基单链荧光探针混合物,这里简单表示为3’-XXnnnzzz-5’。在连接反应中,这些探针根据碱基互补规则与单链DNA模板链配对。探针的5’末端用四种荧光染料标记,即CY5、德克萨斯红、CY3和6-FAM(图6-a)。在这种8碱基单链荧光探针中,确定了1和第二碱基(XX)处的碱基,并根据不同种类在6-8位(zzz)添加了不同的荧光标记。这是一种独特的固体测序方法。两个碱基确定一个荧光信号,相当于一次确定两个碱基。这种测序方法也被称为双碱基测序。当荧光探针可以与DNA模板链连接时,它会发出代表1,2碱基的荧光信号。图6-a和图6-b中的比色板显示了1,2碱基的不同组合与荧光颜色之间的关系。记录荧光信号后,用化学方法在第5和第6个碱基之间切割,这样可以去除荧光信号,用于下一个位置的测序。但值得注意的是,通过这种排序方式,每次排序的位置相差5位。即第一次是1和2,第二次是6和7...在末端被测量后,新合成的链应该被变性和洗脱。接下来,引物n-1用于第二次测序。引物n-1和引物N的区别在于它们与接头配对的位置有一个碱基的不同(图6-a. 8)。也就是说,引物n-1在引物N的基础上将测序位置移动到3’末端,从而可以确定第0、1、第5和第6个位置...完成第二轮测序,以此类推,直到第五轮测序,最后可以完成所有位置的碱基测序,每个位置的碱基检测两次。这项技术的阅读长度为2×50bp,后续的序列拼接也比较复杂。由于双重检测,该技术的原始测序准确率高达99.94%,15x覆盖准确率为99.999%,应该说是目前第二代测序技术中准确率最高的。但在荧光解码阶段,由于是两个碱基决定的荧光信号,一旦出现错误,就容易产生连锁解码错误。

第三代测序技术

测序技术在最近两三年达到了一个新的里程碑。PacBio公司的SMRT和牛津纳米孔技术作为纳米孔单分子测序技术,被称为第三代测序技术。与前两代相比,它们最大的特点是单分子测序,测序过程中不需要PCR扩增。

PacBio SMRT技术实际上应用了边合成边测序的思想,以SMRT芯片为测序载体。基本原理是:DNA聚合酶与模板结合,用四种颜色的荧光标记四种碱基(即dNTP)。在碱基配对阶段,加入不同的碱基会发出不同的光,根据光的波长和峰值可以判断输入的碱基类型。同时,这种DNA聚合酶是实现超长阅读长度的关键之一,主要与酶活性的维持有关,主要受激光造成的损伤影响。PacBio SMRT技术的关键之一是如何将反应信号与周围游离碱的强荧光背景区分开来。他们使用ZMW(零模式波导孔)原理:在微波炉壁上可以看到许多密集的孔。小孔的直径很精致。如果直径大于微波波长,能量会穿透面板,在衍射作用下泄漏出去,从而干扰周围的小孔。如果孔径小于波长,能量就不会向周围辐射,而是保持直线(光衍射原理),从而起到保护作用。同样,在一个反应管(SMRTCell:单分子实时反应孔)中,有许多圆形的纳米孔,即ZMW(零模波导孔),外径大于100纳米,小于探测激光的波长(几百纳米)。激光从底部命中后,无法穿透微孔进入上层溶液区,能量被限制在一个刚好能覆盖待检测部分的小范围内(体积为20x10),使信号只来自这个小反应区,过多的孔外游离核苷酸单体留在暗处,从而使背景最小化。此外,通过检测相邻两个碱基之间的测序时间可以检测到一些碱基的修饰,即如果碱基被修饰,通过聚合酶的速度会变慢,相邻两个峰之间的距离会增大,这样就可以检测到它们之间的甲基化等信息(图7)。SMRT技术的测序速度非常快,大约每秒10 dNTP。但同时它的测序错误率也比较高(这几乎是目前单分子测序技术的通病),达到15%,不过好在它的错误是随机的,不像二代测序技术那样存在测序错误的偏倚,所以可以通过多次测序来有效纠正。

牛津纳米孔技术公司开发的纳米单分子测序技术不同于以前的测序技术,它是基于电信号而不是光信号。这项技术的一个关键点是,他们设计了一种特殊的纳米孔,其中共价键合了一种分子接头。当DNA碱基通过纳米孔时,它们会改变电荷,从而暂时影响流经纳米孔的电流强度(每个碱基影响的电流变化幅度不同),敏感的电子设备会检测到这些变化,以识别通过的碱基(图8)。

去年,该公司在基因组生物技术进展(AGBT)年会上推出了第一个商用纳米孔测序仪,引起了科学界的极大关注。纳米孔测序(以及其他第三代测序技术)有望解决目前测序平台的不足。纳米孔测序的主要特点是:阅读长度很长,大约几十kb,甚至100 kb;误差率目前在1%-4%之间,而且是随机误差,而不是聚集在读数两端;可以实时读取数据;高通量(30x人类基因组预计一天完成);测序过程中初始DNA不会被破坏;样品制备简单、廉价。理论上也可以直接测序RNA。

纳米多孔单分子测序计算的另一大特点是不需要像传统方法那样对基因组进行亚硫酸氢盐处理,就可以直接读取甲基化的胞嘧啶。这对在基因组水平上直接研究表观遗传相关现象有很大帮助。而且改良方法的测序准确率可以达到99.8%,一旦发现测序错误,很容易纠正。但是,目前似乎还没有关于该技术应用的相关报道。

其他测序技术

目前还有基于半导体芯片的新一代革命性测序技术——Ion Torrent 6。这项技术使用的是布满小孔的高密度半导体芯片,一个小孔就是测序反应池。当DNA聚合酶将核苷酸聚合到延伸的DNA链上时,会释放出一个氢离子,反应细胞内的PH值会发生变化,细胞下的离子受体会感受到H+离子信号,直接转换成数字信号,从而读出DNA序列(图9)。——这项技术的发明者乔纳森·罗斯伯格也是454测序技术的发明者之一。它的文库和样品制备与454技术非常相似,甚至可以说是454的拷贝,只不过在测序过程中,通过检测H+信号的变化来获得序列碱基信息,而不是检测焦磷酸的荧光颜色。与其他测序技术相比,离子洪流不需要昂贵的物理成像等设备,所以成本相对较低,体积相对较小,操作更简单,速度也相当快。除去两天的制库时间,整个计算机测序可以在2-3.5小时内完成,但是整个芯片的吞吐量并不高,目前大概是10G,但是非常适合小基因组和外显子的测序。

总结

以上简要阐述了每一代测序技术的原理,下面的表1和表2总结了这三代测序技术的特点。其中,测序成本、阅读长度和通量是评价先进测序技术的三个重要指标。除了第一代和第二代测序技术在通量和成本上的差异,测序的核心原理(除了Solid是边连接边测序)都是基于边合成边测序的思想。第二代测序技术的优点是成本大大降低,通量比第一代大大提高,但缺点是引入的PCR过程会在一定程度上增加测序误差率,且有系统偏倚,阅读长度短。第三代测序技术是为了解决第二代的缺点而开发的。其基本特征是单分子测序,不需要任何PCR过程。这是为了有效避免PCR偏倚带来的系统误差,同时增加阅读长度,保持第二代技术高通和低成本的优势。

表1:测序技术的比较

表2:主流测序仪的成本测序对比

下图10显示了全局序列器的当前分布。图中热点主要分布在中国深圳(以华大为主),南欧,西欧,美国。

参考

原文链接:http://www . huangshujia . me/2013/08/02/2013-08-02-an-introduction-of-ngs-sequence . html