24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2389  |  回复: 2

dragonbw

铁虫 (初入文坛)

[交流] Bioinformatics

生物信息学
概论
    1.1 什么是生物信息学?
什么是生物信息学?生物信息学(Bioinformatics)是一门新兴的交叉学科。很多人会认为:生物信息学既涉及生物又涉及物理,一定是一个内容十分广泛的学科领域。其实它的内涵十分具体,范围非常明确。生物信息学是伴随基因组研究而产生的,因此它的研究内容就紧随着基因组研究而发展。
  广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。
  具体地说,生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。
  生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。

  以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩如烟海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识。在大量信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中重大问题,搞清它们的基本规律和时空联系,建立" 生物学周期表"。
  1.2 生物信息学研究、开发的主要内容
  构成和维持一个生活有机体所必备的基本信息包含于它的基因组之中,由细胞内进行的多种分子生物学反应将这些信息转化为真正的生命现象。基因组的一部分翻译成蛋白和R NA,其它部分调控这些大分子的表达。翻译出来的蛋白及RNA折叠成高度专一的三维结构,在体内的特定位置上实现它的功能。这些过程的大量细节都是在分子生物学研究的实验室里揭示出来的,所形成的大量数据,存储于数据库中。生物信息学试图从这些数据中提取新的生物学信息和知识,是一门深深植根于全面深入的实验事实和数据的理论生物学。它的研究范围十分广泛,大体包括以下方面:基因组序列分析和解释、药物设计、基因多态性分析、基因表达调控、疾病相关基因鉴定、基因产物结构与功能预报、基因进化、基于遗传的流行病学等。
    (1)基因组序列的分析(序列比对和结构比对)
  在基因组测序的原始数据发表后,仍有许多信息研究需要开展,比如 注释、同源性分析、基因分类、基因结构分析等,这方面的研究需要建立较优化的数理统计模型,大规模的数据库检索,模式识别和可视化等。
  (2)基因进化(同源性判断,进化树的的构建)
根据多种生物的基因组数据及对垂直进化和平行演化的研究,可以对生命至关重要的基因结构及它的调控进行研究,对此需要建立较完整的生物进化模型,用基因组的数据来鉴别出环境因素对其进化的影响。这次研究成果应对生态环境,环境卫生提出指导性影响,对研究生命起源也有科学意义。
  (3)药物设计
  生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速高效的特点,它的研究包括大分子结构功能的模拟和预报,药物分子与大分子结合的模拟,关键性基因的致病机制,及生物分子同源性的分析,生物分子在指定细胞的分布和位点等。
  (4)基因多态性分析
  即使一个基因的序列已经确定,它只是有代表性的序列之一。在群体的分布中,仍存在有基因的多态性。由于多态性的存在,生物表型及对环境、外源物和药物的反应即不同。研究基因多态性可以对群体的基因共性及其中的基因个性( SNPs)都有明确的认识。
  (5)基于遗传的流行病学研究
  流行病学研究是医学信息学的重要课题之一。将流行病学的遗传和非遗传性的研究与分子基因信息结合起来,会导致对疾病的机理、个体对某种疾病的易感性和疾病在群体中的分布有更明确的认识,对疾病的预防和治疗有极大的指导意义。
  (6)关键性基因签定(基因识别)
  通过基因与生物表型、致病机制和其它生命现象之间的关联,可以发现一些至关重要的基因,结合定向的生物实验,可以确认新的关键性基因。
  (7)基因产物功能预报
  在确认了基因的基础上,通过与已知的基因产物的结构和功能、代谢途径和其它生物功能对照,可以实现新基因产物功能的预报,结合定向的生物实验,可以证实预报的功能。
  (8)完整基因组的比较基因组学
  在后基因组时代,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析。有的科学家估计不同人种间基因组的差别仅为 0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA 序列找原因,也应考虑到整个基因组、考虑染色体组织上的差异。
    1.3 生物信息学----基因组研究的有力工具
    基因组信息学、蛋白质的结构计算与模拟以及药物设计,这三者紧密地围绕着遗传信息传递的中心法则,因而必然有机地连接在一起。
  为什么基因组研究需要依赖生物信息学呢?首先伴随着基因组研究,相关信息出现了爆炸性增长,迫切需要对海量生物信息进行处理。自1995年科学家破译了全长为180万核苷酸的嗜血流感杆菌基因组以来,到目前已有大约60个微生物和若干真核生物,如:酵母、线虫、果蝇、拟南芥的完整基因组完成测序。至2001年的春天,科学家又公布了人类基因组的绝大部分序列,即:人类基因组的工作草图。这些成就意味着基因组的研究将全面进入信息提取和数据分析的崭新阶段。根据国际数据库的统计,1999年12月DNA碱基数目为30亿,2000年4月DNA碱基数目是60亿,现在这一数目已达140亿,大约每14个月翻一番。同时,电子计算机芯片对于数字处理能力的增长也相当于每18个月翻一番。因此,计算机能够有效地管理和运行海量数据。
  但是,更为本质的原因是基因组数据的复杂性。所谓某种生物的基因组就是指该生物所有遗传物质的总和。生物的遗传物质是一类称为脱氧核糖核酸(DNA)的生物大分子,它是由4种核苷酸串接起来组成的,通常用字符A、T、G、C代表。通俗地说,生物的遗传密码就是这4个字符连接起来的线状长链。这种链往往很长,比如:人的遗传密码就含有32亿个字符,将它们堆起来就构成了一部100多万页、每页有3000字符的"天书"。这本"天书"包含了人体的结构和功能以及生命活动过程的大量信息,却仅仅由4个字符组成,既无词法,又无句法,还没有标点符号,看起来每一页都是相似的。如何读懂它是个极大的难题。基因组研究最终是要把生物学问题转化成对数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、技术、工具,就必须依赖计算机的信息处理。
  从事生物信息学研究应具备多方面的科学基础。首先,它需要一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;同时,生物信息学需要强有力的创新算法和软件。没有算法创新,生物信息学就无法获得持续的发展。最后,它要与实验科学,特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证生物信息学研究结果的关键手段。因此,从事生物信息学研究的人员也必须具备多学科交叉的知识。
  我国生物信息学的研究和应用有一定的基础,因而有望取得突破性成果,这对于增强我国在基础研究领域的实力,在某些方面占据国际领先地位是十分重要的。生物信息学成果的应用也会产生巨大的社会效益和经济效益。
  基因组研究的主要研究内容
  一.获取人和各种生物的完整基因组
  基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。也就是说,要得到人的全部遗传密码首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。
  但是,我们很容易想象:如果把一本书撕成大小一样的碎片,就再也无法把它们重新正确地拼接起来,这是因为撕的同时丢失了书的上下文联系。这该如何办呢?我们可以取两本一样的书,按照不同的撕法把它们分头打碎。通过不同碎片互相参照,找到相同的单词,就可以部分恢复书的上下文联系。撕的书越多,恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿碱基只测一遍,往往要测很多遍。比如,今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其物理图谱覆盖率为96%,序列覆盖率为94%。有大于90%的连续序列群已大于10万碱基;有约25%的连续序列群已等于或大于千万碱基。在这些序列中发现了3-4万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。
  在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙,到重复序列标识、读框预测和基因标注,每一步都是紧密依赖生物信息学的软件和数据库的。其中,序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。
  有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占1.1%;外显子与外显子之间的区域(称为内含子)占了24%;而基因与基因之间的间隔序列却占了75%,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。
  二.发现新基因和新的单核苷酸多态性
  发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60%是通过信息分析得到的。
  (1)基因的电脑克隆 利用EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短cDNA序列,它们携带着完整基因的某些片段的信息。到2001年10月,GenBank的EST数据库中人类EST序列已超过380万条,它大约覆盖了人类基因的90%以上。
  我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。
  (2)从基因组DNA序列中预测新基因 从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新的基因了。
  发现了新基因就会使我们对生命活动的认识加深一步。据1999年12月2日《自然》杂志,人的第22号染色体数据已鉴定出679个基因,其中55%的基因是未知的。有35种疾病与该染色体突变相关,像免疫系统疾病、先天性心脏病和精神分裂症。但是,要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中,依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的"整合基因索引"及与之相关的"整合蛋白索引"。
  (3)发现单核苷酸多态(SNP) 有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。
  现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,近来的研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,近年来对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
  
回复此楼
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

liming0898

金虫 (正式写手)

下载 学习了,谢谢
2楼2011-03-26 22:08:30
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
3楼2015-09-13 17:22:57
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 dragonbw 的主题更新
信息提示
请填处理意见