| 查看: 281 | 回复: 0 | |||
| 当前主题已经存档。 | |||
[交流]
Bioinformatics(续一)
|
|||
|
三.基因组中非编码蛋白质 区域的结构与功能研究 近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%到20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。 对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),最新资料说明这部分序列只占基因组的1.1%。仅占人类基因组1.1%的编码区的相关研究已经缔造了数十名诺贝尔奖获得者,98%非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。 四.在基因组水平研究生物进化 近几年来,随着基因组序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。首先发现同一种群基于不同分子序列所重构出的进化树可能不同。同时,对"垂直进化"和"水平演化"之间关系的讨论正逐渐引起人们的重视。也就是近年来发现了基因的"横向迁移现象"。即:基因可以在同时存在的种群间迁移,其结果虽可导致序列差异,但这种差异与进化无关。甚至,对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。特别是:在分子进化分析中,"相似性"和"同源性"是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。 五.完整基因组的比较研究 在后基因组时代,完整基因组数据越来越多,有了这些资料人们就能对若干重大生物学问题进行分析研究,如:生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物体至少需要多少基因?这些基因是如何使生物体活起来的?等等。这些重大的问题只有在基因组水平上才能回答。举例来说,鼠和人的基因组大小相似,都含有约30亿碱基对,基因的数目也类似,且大部同源。可是鼠和人差异却如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。因此,这种差异不仅应从基因、DNA序列找原因,也应考虑到整个基因组、考虑染色体组织上的差异。这一工作开创了比较基因组学。 科学家们发现:全部基因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、分子伴娘、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。同时,科学家们通过几个完整基因组的比较,统计出维持生命活动所需要的最少基因的个数为250个左右。同样,当我们比较鼠和人的基因组就会发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。研究表明在同一界中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。 我国从1998年开始就开展了微生物完整基因组的大规模测序和分析工作。现在正进行和已完成的有:我国自行鉴定的Thermotogales科的高温真细菌、泉生热袍菌;福氏痢疾杆菌;钩端螺旋体出血黄疸型赖株;表皮葡萄球菌;菊花黄单胞菌。我国科学家在完成人类基因组的1%测序工作的同时,最近又完成了具有4.3亿碱基对的水稻基因组的"工作草图"。这些数据将为我国在这一领域的研究提供最直接的素材。 六.从功能基因组到系统生物学 在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,约有3-4万个转录子,有的组织中只有几十或几百个基因表达。同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。 为了得到基因的表达谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的基因芯片(或称DNA芯片)技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质组技术。由于芯片上样品点的密度很大,可以达到每片几十万,因此表达谱数据挖掘和知识发现就成了该研究成功与否的关键。无论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。 七.蛋白质结构模拟与药物设计 蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组研究的飞速发展,这一领域面临着新的态势,即:找到人类3-4万个基因的碱基序列是指日可待的事,因而确定它们表达产物的氨基酸顺序也会逐渐实现,此时预测这些蛋白的空间结构,进而实现针对性的药物设计,就成了迫在眉睫的任务。这也是大规模的计算问题。 八.生物信息学的应用与发展研究 生物信息学的研究结果不仅具有重要的理论价值,也可直接应用到工农业生产和医疗实践当中去。因此,生物信息学相关的分析与应用算法、软件和数据库,都具有重要的经济价值,最终都会形成商品,提供经济和社会效益。 (1)疾病相关的基因信息及相关算法和软件开发 很多疾病与基因突变或基因多态有关,有人估计与癌症相关的原癌基因约有1000个,抑癌基因约有100个。约有6000种以上的人类疾患与各种人类基因的变化相关联。更多的疾病是环境(包括致病微生物)与人类基因(基因产物)相互作用的结果。随着人类基因组计划的深入,当我们知道了人类全部基因在染色体上的位置、它们的序列特征(包括SNPs)以及它们表达规律和产物(RNA和蛋白质)特征以后,人们就可以有效地判定各种疾患的分子机制,进而发展合适的诊断和治疗手段。为此,有两项生物信息学工作是重要的:一是构建与疾病相关的人类基因信息数据库(包括SNP数据库),二是发展有效地分析基因分型数据的生物信息学算法,特别是将SNP数据与疾病和致病因素相关的计算方法。 (2)建立与动、植物良种繁育相关的基因组数据库,发展分子标记辅助育种技术根据不同物种间的进化距离和功能基因的同源性,可以比较容易地找到各种家畜、经济作物与其经济效益相关的基因,并进一步认识它们发育、生长和抗逆的各种途径和机制。在此基础上,利用相关的基因组分子标记,可以加快育种的速度,对它们按照人们的愿望加以改造。 (3)研究与发展药物设计软件和基于生物信息的分子生物学技术 人类基因组信息为药物发展提供了新的候选分子和新的候选药靶基因。同时,分子生物学常用的表达载体、PCR和杂交引物以及各种试剂盒(包括DNA芯片)的设计必须依赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的天地。 最近两、三年来,美国一些最著名的大学,如哈佛大学、普林斯顿大学、斯坦福大学、伯克利加州大学等都投资几千万到一亿多美元成立了生物学、物理学、数学等学科交叉的新中心,诺贝尔奖获得者朱棣文领导的斯坦福大学的中心还命名为Bio-X。1999年6月3日,美国NIH的一个顾问小组建议在生物计算领域设立总额为数亿美元的重大科研基金,并成立5到20个计算中心以处理海量的基因组相关信息。 生物信息学的发展,不仅导致生物学、物理学、数学、计算机科学等多种科学文化的融合,也必将造就一批新的从事交叉学科研究的科学工作者。科学家们普遍相信本世纪最初的若干年是人类基因组研究取得辉煌成果的时代,也是它创造巨大的经济效益和社会效益的时代。让我们作为见证人欣赏生物信息学的蓬勃发展吧! 1.4 人类基因组测序完成之后-生物信息学的科学目标 生物信息学是当前生物学领域的研究热点,预计在未来的若干年它将变得越来越重要、越来越引起人们的重视。 近期任务:由于未来几年蛋白质和核酸的测序数据将以指数方式增加,近期生物信息学将在以下几方面迅速发展: (1)大规模基因组测序中的信息分析 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设讨和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 (2) 新基因和新SNPs(单核苷酸多态性)的发现与鉴定 人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含的6千多个基因,大约60%是通过信息分析得到的。 当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。"这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps的研究。在我国开展中华民族SNPs研究也是至关重要的。 (3)完整基因组的比较研究 现在,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析,比如:研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?比如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间因组的差别仅为0.1%;人猿间差别约为I%。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA序列找原因,也应考虑到整个研究组、考虑染色体组织上的差异。总之,这些例子说明由完整基因组研究所导致的比较基因组学必将为基因组研究开辟新的领域。 (4)大规模基因功能表达谱的分析 随着人类基因组测序逐渐接。近完成、一些学者就提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?于是他们提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲出(knock-out)或基因过度表达的影响是什么;多基因的表现型如何,等。概括这些问题,其实质应该是:我们虽然知道了基因,知道了核酸序列,但我们不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。 为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的DNA芯片技术和在蛋白质层次上的二维凝胶电泳和测序质谱技术,也称蛋白质组技术。 (5)生物大分子的结构模拟与药物设计 随着人类基因组计划的执行,估计几年之内就可找到人类的8万到10万个基因,也就是发现它们的一级序列。然而要了解他们的功能、要找到这些蛋白质功能的分子基础,必须进一步知道它们的三维结构。与此同时,要设计药物也需要了解相应的蛋白质受体的三维结构。这是摆在科学家面前的紧迫任务。 远期任务 :生物信息学的远期任务是读懂人类基因组,发现人类遗传语言的根本规律。从而阐u若干生物学中的重大自然哲学问题,像生命的起源与进化等。这一研究的关键和核心是了解非编码区。 (1)非编码区信息结构分析 近年来完整基因组的研究表明,在细菌这样的微生物中非编码区只占整个基因组序列的10%到 20%。而高等生物和人的基因组中非编码区都占到基因组序列的绝大部分。从生物进化的观点看来,随着生物体功能的完善和复杂化非编码区序列明显增加的趋势表明:这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热点课题。 对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),很多资料说u这部分序列只占基因组的3%到5%,也就是说,人类基因组中多达 95%到97%是非编码区。如何深人了解这些非编码区序列的功能是当前科学家们面临的一个真正的挑战。 (2)遗传密码起源和生物进化的研究 自1859年Darwin的物种起源发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。近年来,随着序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。不少的研究结果并不支持分子钟的假设。因为基于某一种分子序列所重构出的进化树,只能反映这种序列的系统发育关系,并不一定能代表物种之间真正的进化关系,即可能存在着基因树与物种树之间的差异。同时,对垂直进化和水平演化之间关系的讨论正逐渐引起人们的重视。当前的资料给了我们。一个更为复杂也更为丰满的进化模式,它启示我们要彻底了解进化的规律必须使用整个基因组的信息。相应地必须发展新的理论方法。 总之,当前是生物信息学研究的一个有活力的新时代。不少科学家还说它是人类基因组研究的收获时代,它不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长,这是一个难得的机会,应尽早利用这些数据就可能走在国际科学界的最前沿。 二 后基因组时期的主要任务:即从完全测序的基因组中预测功能。 1 、序列、结构和功能 自分子生物学产生以来,均相信序列决定结构,结构决定功能。随着基因组学的发展,对此理解已有长足的深化。 同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相异序列可能有相似的结构;序列与结构不相似的蛋白可能会有相似的功能。何谓功能?功能有层次的:表型的,细胞的和分子的。 目前开始高层功能预测,分子相互作用、代谢途径和调控网络。 目前,已从结构基因组学,功能基因组学和蛋白质组学多种角度研究基因组功能。 2 、结构基因组学中的生物信息学 希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。生物信息学可以发挥作用,一方面规划好测定的对象,另一方面可靠地模建结构。 3 、功能基因组学中的生物信息学 美国HGP 已编制1998-2003 的新五年计划。提出八项目标:其中目标7 特指生物信息学和计算生物学,其实几乎每项目标都要生物信息学,例如目标4 功能基因组学中的非编码区功能位点预测,基因表达分析(如DNA Chip)以及蛋白质全局分析(如蛋白质组学)。 |
» 猜你喜欢
计算机、0854电子信息(085401-058412)调剂
已经有5人回复
国自然申请面上模板最新2026版出了吗?
已经有13人回复
基金委咋了?2026年的指南还没有出来?
已经有3人回复
Materials Today Chemistry审稿周期
已经有5人回复
溴的反应液脱色
已经有7人回复
推荐一本书
已经有12人回复
基金申报
已经有4人回复
纳米粒子粒径的测量
已经有7人回复
常年博士招收(双一流,工科)
已经有4人回复
有没有人能给点建议
已经有5人回复











回复此楼
