24小时热门版块排行榜    

查看: 1327  |  回复: 7
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

想飞的fish

新虫 (小有名气)


[交流] 长生的仙草--PacBio第三代测序技术Nature最新文章解读

Oropetium,属于禾本科,是目前已知最小基因组的草类,基因组大小为245M,基因组虽小却变化多端,具有28,466个编码蛋白基因和43%的重复序列,还有30%以上更紧凑的常染色体区域。使用常规NGS测序数据进行拼接,简直就是不可能的任务。

幸运的是,来自唐纳德植物科学中心的 Robert VanBuren, Doug Bryant以及Todd Mockler以及来自于加州大学伯克利分校等单位的研究者,2014年成为了由PacBio公司赞助的“世界上最有趣基因组项目““Most Interesting Genome in the World” SMRT Grant Program的获奖者,该项目由Pacific Biosciences公司和Sage Science共同发起。Pacific Biosciences公司承担了其中的第三代测序和基因图谱绘制工作。
重大突破:
        2015年11月11日,Nature杂志在线发表了他们的文章:Single-molecule sequencing of the desiccationtolerant grass Oropetium thomaeum,基于Pacific Biosciences公司的第三代单分子测序技术独立测序,并结合Bionano单分子光学图谱技术,获得几乎完整的耐旱草Oropetium thomaeum基因组。
       本文完全采用第三代单分子测序技术,基于P6-C4试剂,用32个 SMRT cells在RS II系统上运行,测序时间不到一周,产生了覆盖72×Oropetium基因组的序列。获得了Read N50>16kb的长度长,拼接得到Oropetium 基因组的99%(244Mb),共组装成625个contigs,Contig N50达到2.4Mb(而目前已发表的所有植物基因组Contig N50平均大小仅为50kb)。其中35个最大的Contigs覆盖了一半的基因组,107个Contig就已包含了90%的基因组序列。
       作者轻松组装得到了Oropetium“几乎完整”的基因组草图。包括无Gap覆盖基因区域和基因间序列,比如着丝粒,端粒,转座子及rRNA簇等区域,这些区域在以往的草图中都是典型的无法拼接的区域。仅仅72x,测序的准确率就高达99.99995%,和经典的Sanger法相似,高于大部分基于NGS数据拼接的准确性。
其中全长为135,324bp的叶绿体基因组被拼接为一个单独的Contig,其中还包含两个25kb长的反向重复区域,这在以往的NGS测序拼接中都被误认为是一个拷贝。
Oropetium基因组的组装还获得了所有的18个端粒区序列。这一区域有40-900个不等的重复序列,9个着丝粒区域中的3个也被完整拼接到400kb的超长反向重复序列中,这其中包含155bp的重复单元单体,或2倍,3倍或4倍的重复单元。

      Oropetium基因组的完成充分证明,采用PacBioSMRT 单分子实时测序技术和BioNano单分子基因组图谱绘制系统,可以完成前所未有的高质量基因组。
     作者在文中指出,该项目从DNA提取到获得完整基因组组装只用了不到一个月,PacBio成本与基于Illumina的基因组组装也是接近的。PacBio SMRT测序可以获得全新的高质量基因组组装,并用于基因间序列的完整ENCODE类型分析,这对于其他基于NGS的方法是不可能的。
应用价值:
    该物种完整基因组的完成,同时也为比较基因组学研究提供了非常有价值的资源。
禾本科(学名:Poaceae)是最主要的植物大科之一,有660属近10000种,是种子植物中最有经济价值的大科,与人们的生活息息相关,比如:小麦、稻米、玉米、大麦、高粱等,是人类粮食和牲畜饲料的主要来源。在生态上,禾本科植物适应性广,分布遍及全球,从热带至寒带,从平原到高山,湖泊、沼泽、沙漠地区均有它们的踪迹,居高等植物之冠。

     上图就是文章中对禾本科的多个属,进行进化树分析,包括高粱属,稻属,短柄草属进行了比对,Oropetium基因组更为紧凑,重复区域更少,以基因组数据比对进行的种属分类就更为准确,Oropetium的优良抗逆性能也可以在跨物种作物育种中得到利用。
测序常识:
1.什么是Reads?
     高通量测序平台产生的原始序列就称为reads。
2. 什么是Contig?
      拼接软件基于reads之间的overlap重叠区,拼接获得的序列称为Contig(重叠群)。Contig就是完全用序列拼接出来的,中间没有缺失,但不代表没有数量和位置上的错误。基于二代测序技术测序片段较短,很难拼出长序列,为了克服这个问题,需要使用3k/ 5k /10k /20k不同长度的文库,构建大片段,再把大片段两端100bp序列进行测序定位,这样把Contig给拼接起来。
3.何谓N50?
      N50就是50%的序列中最短的那条序列长度,把序列按长到短排序,累计相加,当累计长度达到拼接基因组大小50%的时候,这一条序列是多长,那就是N50。这个对于Contig 和Scaffold适用,所以经常看到Contig N50 和Scaffold N50,这两个指标越大表示基因组组装的越好,其间的Gap越少。

4.什么是Scaffold?
基因组de novo从头测序,通过reads拼接获得Contigs后,往往还需要构建更大的文库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。对于动物来说,一般可以达到2M级别,植物很多只有几十K左右。
5.PacBio三代测序解决问题的意义?
     PacBio  SMRT三代单分子测序技术平均读长能达到16Kb,对于如简单重复序列,回文序列,反向重复,转座子等NGS技术发现不了或者不能定位的基因结构变异区域,直接测通,减少了拼接过程带来的错误,而且可以覆盖如高G/C含量等NGS技术的盲区,所以Contig N50就能达到之前NGS技术的Scaffold效果,甚至更好。所以如这篇文章报道的,其Contig N50就达到了2.4M。
PacBioSMRT第三代测序技术如此强悍,相信不久的未来,大量的基于PacBio三代技术的高质量基因组数据会不断涌现。
Pacbio在中国
    天津生物芯片于2013年引进国内首批PacBio RS II测序仪系统,将PacBio RS II测序平台与二代测序平台相结合,目前可以达到平均8K以上的读长,它应用于小基因组完成图、动植物复杂基因组组装、表观基因组学、全长转录组测序等方面。2014年,率先升级至P6-C4试剂盒,读长高达42Kb,reads N50高达18Kb,每个SMRT Cell的数据量高达1.2Gb,碱基准确度>99.999%(QV50)。在这两年时间里,天津生物芯片通过上百个大小项目的实战经验积累,进一步优化和完善了自己基于第三代测序的数据分析平台,成为第三代测序分析服务领域领跑者。某二倍体基因组大小为350Mb左右,且杂合度比较高。天津生物芯片使用P6-C4试剂组合,测其全基因组DNA。最终测得subreads的总数据量为30.4Gb,经过过滤的subreads长度的N5O值为15450bp,subreads的平均长度为11054bp。采用TBC研发的拼接策略仅用Pacbio进行denovo拼接,最终获得了321Mb基因组序列,最终拼接结果的Contig N50值达1.35mb。

如有转载,请注明出处。
回复此楼

» 猜你喜欢

» 本主题相关商家推荐: (我也要在这里推广)

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

XuanyuanLand

银虫 (小有名气)



小木虫: 金币+0.5, 给个红包,谢谢回帖
感觉屌屌的→_→

发自小木虫Android客户端
8楼2015-11-24 13:31:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 8 个回答
简单回复
billie1133楼
2015-11-24 11:03   回复  
想飞的fish(金币+1): 谢谢参与
假大空4楼
2015-11-24 11:09   回复  
想飞的fish(金币+1): 谢谢参与
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见