24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1058  |  回复: 0

jaxb

银虫 (正式写手)

[交流] 利用基于半导体的第二代测序技术高通量的发掘兔基因组SNP

利用基于半导体的第二代测序技术高通量的发掘兔基因组SNP
意大利博洛尼亚大学F. Bertolini……L. Fontanesi*
虽然兔基因组测序和组装(oryCun2.0)已经完成,而且也有一些关于兔微卫星、SNP和CNV的研究,但是兔基因组大规模多态性发掘还没有报道。因此本研究利用离子流个人基因组测序仪(PGM)测序了HaeIII
and RsaI两个限制性酶的简化代表库(RRLs),识别了10只家兔(1只法国香槟兔,3只巨型格仔兔,1只勃艮第兔,2只维兰特兔和3只商业肉兔)基因组的SNPs。经过ION TORRENT suite v.2.2软件的过滤,两个库分别获得了2,917,879和4,046,871个reads,平均长度分别为96bp和103bp,总共长度分别为280.51Mb(248.49Mb的质量>20)和417.28Mb(360.89Mb的质量>20)。其中分别有2,627,434(90%)和3,685,226(91%)个reads比对到了兔基因组,占兔基因组的7.01%和9.06%(合并后为15.82%)。序列数据已经上传到欧洲核苷酸数据库(EMBL),序列号为ERP002438。实验要求至少有4个reads以上覆盖的SNP为高可信度SNP,因此只能在31,389,157bp和58,542,265bp兔基因组长度上寻找,其SNP的覆盖率分别是5.38和6.68。两个库的数据合并覆盖了兔基因组上107,922,811bp长度(<4reads的也算),深度为5.7X。本研究对SNP进行过滤,总共推断出62,491个SNPs,平均每1727bp一个SNP(62,491/107,922,811)。其中8号染色体和2号染色体SNP最多,分别为6,289和4,928个。SNP的密度最高的也是18号染色体,为11.1kb每SNP,最低在14号染色体,为50.8kb。研究又用桑格测序进行了验证,检测到了22个SNPs(OCU7上9个,OCU18上12个,OCU19上1个),其中16个SNPs在库中,包括一个reads小于4X的。也就是6/22的假阴性率和0/22的假阳性率。也就是说68%的高可信度SNPs(15个)检出率和100%假阳性率。大部分的SNPs都存在于基因间(67.3%)和内含子区域(32.5%)。位于编码区域的SNPs中有538个是同义突变,有479个是错义突变,有16个是无义突变。本研究结果为以后该物种的应用和基础研究提供了非常有用的信息。

交流与问题:
1,为什么选择reads的覆盖率为4X?从文中可以看到假阴性的原因主要就是SNP对reads的限制太严格。作为仅是对SNP的发掘,应该是可以有适当的假阳性,尽量减少假阴性。
2,桑格测序进行验证的时候,区域是如何选取的?可以这样理解吗,两个库中在这些区域上高可信度的SNPs为15个,且全部被桑格测序所发现,还有桑格测序发现的6个没有存在于库中?
3,三种突变合起来的SNP是1033个,占所有发现的1.65%。这与前面基因间和内含子区域的SNPs占99.8%有点不符合,是什么原因?
4,总得SNP密度为1727bp一个SNP,怎么密度最高的8号染色体密度反而是11.1kb一个SNP呢?是不是小数点打错了啊?
5,基因间区域和内含子区域怎么区别?基因间区域( intergenic)就是不编码区域吧,不属于内含子区域?还是说内含子只是指基因内外显子之间的区域?

来源:http://www.ncbi.nlm.nih.gov/pubmed/24444082-Bertolini F, Schiavo G, Scotti E, Ribani A, Martelli PL, Casadio R, Fontanesi L. High-throughput SNP discovery in the rabbit (Oryctolagus cuniculus) genome by next-generation semiconductor-based sequencing. Anim Genet, 2014, 45(2):304-7.
回复此楼
丰富你的动物食品!
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

智能机器人

Robot (super robot)

我们都爱小木虫

相关版块跳转 我要订阅楼主 jaxb 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见