【专题】第三代测序技术——单分子测序

作者 holyala: 来源: 小木虫 2950 59 举报帖子

前两年在木虫上发了一个二代测序的帖子，收到了不少虫友的回复，可见这个领域还是颇受关注的。由于个人原因，AFK了好久，哈哈......再回到论坛时，已经有了新的定位和方向。最近接触了很多单分子测序的信息，工作也与此相关，故再发一帖，与大家分享。

旧帖地址【专题】第二代测序技术漫谈

--------------------------------------分割线---以下正文--------------------------------------

一、单分子测序简介

自从2006年第一台454 GS FLX测序平台上市以来，基于非Sanger测序原理的第二代高通量测序 (next-generation sequencing, NGS) 技术迅速成为了基因组学研究的重要工具，其中包括Illumina Solexa、ABI SOLiD、Roche 454以及Life Tech的半导体测序仪Ion Torrent PGM & Proton。这些平台原理各有不同，在通量、读长、准确度、速度和成本方面各具优势，均在基因组de novo，重测序、转录组、表观遗传学研究中发挥了重要作用，并逐渐应用于个性化医疗和遗传诊断等临床服务。近五年来，NGS的数据产出一直呈现出指数增长的趋势，平均每5个月数据量增加一倍。（数据来源：NCBI Sequence Read Archive）

另一类非Sanger原理的DNA测序技术在2008年成为现实，这类基于单个分子信号检测的DNA测序被称为单分子测序 (single molecule sequencing, SMS)，或第三代测序 (third generation sequencing, TGS)。据预测，SMS将比NGS具有更快的速度和更低的成本，从而使研究人员能够实现目前无法进行的研究工作[1]。尽管从现在的进展来看，SMS还未能完全实现预期目标，但已经做出了许多重要的努力。这些新技术包括Helicos的tSMS，PacBio的SMRT，Oxford的Nanopore以及其它一些尚处于实验室阶段的技术，如电镜测序，蛋白质晶体管测序等等。

二、tSMS（ture single molecule sequencing）
Helicos Bioscience (MA, USA) 于2008年推出的HeliScope单分子测序平台被认为是第一个商品化的第三代测序仪。其测序原理tSMS是由斯坦福大学的S. R. Quake等科学家提出的。tSMS是一种利用光学信号进行DNA碱基识别的边合成边测序 (sequencing by synthesis, SBS) 技术，与二代测序中的Illumina Solexa测序有类似之处，但该技术无需对样本进行PCR扩增，简化了测序文库的构建过程，也避免了DNA扩增中出现的错误。HeliScope的文库制备相对简单，首先将待测DNA随机打断成约200bp大小的片段，然后在3’末端加上50bp带有荧光标记的poly(A) tail。文库退火形成单链，与芯片上固定的Oligo dT探针结合，利用poly(A)上的荧光标记进行精确定位。接下来依次加入4种Cy5荧光染料标记的单核苷酸，在DNA聚合酶的作用下与模板互补配对并延伸一个碱基，ICCD相机采集荧光信号。最后通过化学剪切去除荧光基团并清洗，进行下一轮反应。原理如图所示。

了解Illumina测序原理的同学对tSMS应该会有一种熟悉的感觉，二者原理和流程较为相似，所不同的在于tSMS采集的是一条DNA模板合成时所发出的荧光，而Illumina检测的信号来自于桥式PCR扩增得到的DNA（模板）cluster合成时发出的荧光。因此，tSMS技术能够实现单分子测序，主要依赖于高分辨率的ICCD相机，能够对单个分子产生的荧光信号进行识别。但是较弱的信号强度导致测序的读长较短，错误率偏高，尽管通过两次测序 (two-pass sequencing) 能够降低错误率，但同时也提高了测序成本和运行时间。HeliScope可同时运行两个芯片，平均读长约为35bp，一次运行的数据产量可达30Gb左右。该测序仪的售价和运行成本相对较高，一个人类基因组的测序成本约为5万美元。不过，该公司由于经营不善等原因（当然，也有测序仪本身性价比的原因），已经broke了。

参考文献：Harris TD, et al. Single-Molecule DNA Sequencing of a Viral Genome. Science 320: 106-109 (2008)（附原文）

图中显示的是HeliScope测序时的成像过程（右半部分），图中1-8均为6.6μm2大小同一位置的成像结果。画面1是利用poly(A)上的荧光标记进行定位，每一个光点均代表一条被固定在芯片上的文库模板。画面2-8显示了7轮反应的结果，依次加入G-C-A-G-T-C-A，根据图像可识别出位置1延伸的前4个碱基是5’-CGCA-3’[ Last edited by holyala on 2014-9-3 at 22:58 ]