24小时热门版块排行榜    

CyRhmU.jpeg
查看: 12742  |  回复: 87
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫

[交流] 生物信息学专题-生物版,医学版和信息科学版共同创建已有2人参与

为进一步建好小木虫的专业学科版,现由生物版、医学版和信息科学版共同创建生物信息学专题,欢迎大家积极参与!
引用回帖:

友情链接:生物版硕博研究生入学考试专题!重金悬赏!更新中......
http://muchong.com/bbs/viewthread.php?tid=95236&fpage=2

[ Last edited by fishery on 2005-6-16 at 21:05 ]
回复此楼

» 收录本帖的淘帖专辑推荐

生物信息学 高通量测序 生物信息-分析与挖掘 ENVIRON TECHNOL
刘安安

» 本帖已获得的红花(最新10朵)

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫

★ ★
miRNA(金币+2):谢谢!!
7 功能基因组相关信息分析

功能基因组学是后基因组研究的核心内容,它强调发展和应用整体的(基因组水平或系统水平)实验方法分析基因组序列信息阐明基因功能,特点是采用高通量的实验方法结合的大规模数据统计计算方法进行研究,基本策略是从研究单一基因或蛋白上升到从系统角度一次研究所有基因或蛋白。随着功能基因组实验研究的深入,大量的数据不断涌现,生物信息学将在功能基因组学研究中的扮演关键角色。

7.1 大规模基因表达谱分析

随着人类基因组测序逐渐接近完成,科学家发现即使获得了完整基因图谱,对了解生命活动还有很大距离。我们从基因图谱不知道基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的,等一系列问题。这些问题的实质是不了解按照特定的时间、空间进行的基因表达谱。获得基因表达的信息是比DNA序列测定艰巨得多的任务,因为基因表达是依赖于许多因素的动态过程。

国际上在核酸和蛋白质两个层次上发展了分析基因表达谱的新技术,即核酸层次上的 cDNA 芯片(cDNA微阵列)技术和蛋白质层次上的二维凝胶电泳和测序质谱技术,即蛋白质组(proteome)技术。DNA芯片技术能够在基因组水平分析基因表达,检测许多基因的转录水平。

对大规模基因表达谱的分析存在新的方法学问题,它们从数学角度看不是简单的NP问题、动力系统问题或不确定性问题,而是基因表达网络,因此需要发展新的方法和工具。同时,在芯片等的设计上,也需要从理论到软件的支持

下面主要围绕cDNA芯片相关的数据管理和分析问题进行讨论。

1.实验室信息管理系统

cDNA芯片实验的目的是要在一次实验中同时得到成千上万个基因的表达行为,这样的实验需要有管理实验前后大量数据的能力。设计构建检测基因表达的微阵列需要获得生物体基因的所有序列、注释和克隆。在杂交反应和扫描后,收集到的数据必须以某种方式保存,以便很容易进行图象处理和统计及生物学分析。因此需要建立与大规模高通量实验方法相匹配的实验材料和信息管理系统。

该系统除用来定位和跟踪材料来源(例如,克隆,微阵列,探针)外,还必须管理实验前后大量的数据。此外,还包括实验室设备软件系统,如斯坦福大学Brown实验室免费的控制自制机器点样设备软件(http://cmgm.standford.edu/pbrown

芯片图象处理已有各种软件工具,基本的功能是将不同信号强度点的图像转换为每个点的强度数值。这方面没有一致的方法,许多研究小组仍在开发这类软件。图象分析软件的质量对精确解释玻片和膜上的信号非常关键。NHGRI的Yidong Chen开发了一种复杂的图象分析程序,deArray,可免费获取。

美国国立卫生研究院人类基因组研究所(NHGRI)开发的免费的cDNA芯片数据管理分析系统ArrayDB,涉及微阵列的设计、实验室信息管理、实验结果的处理和解释。下面加以简单介绍。

ArrayDB

ArrayDB是用来储存、查询和分析cDNA芯片实验信息的实验室管理系统。ArrayDB整合了cDNA芯片实验中的多个方面,包括数据管理、用户介面、机器自动点样、扫描和图象处理。ArrayDB中保存的数据包括实验来源、实验参数和条件以及原始的和经处理的杂交结果。ArrayDB依托的关系数据库储存了芯片上每个克隆的相关信息,包括基因的简单描述、GenBank号、IMAGE克隆识别号、代谢途径号和实验室内部克隆号。ArrayDB还储存了与cDNA芯片制造和实验条件的信息。包括点样相关数据(点样机器的参数)、环境条件(温度、湿度、点样针冲洗条件)等数据。此外,还保存了杂交探针和实验条件,包括研究者的姓名,研究目的和实验条件、组织细胞类型的文本描述。有关杂交的结果的信息包括扫描图象(“原始”结果)、信号强度数据、信号强度比值和本底值。

ArrayDB的设计允许灵活地提取数据信息。设计策略允许不同来源的数据输入,大多数克隆信息来自Unigene数据库(包括序列的命名和获取号)。也允许新分离的还没有获取号及名称的克隆的输入。许多数据输入和处理过程是自动的。软件会自动扫描目录查找新输入数据库中的信号强度数据无须人工辅助,其它自动处理包括很方便地整合信号强度数据和克隆数据。

ArrayDB的Web界面能很方便地进行不同类型信息的查询,从克隆信息到信号强度值到分析结果。ArrayDB支持各种字段的数据查询,例如克隆ID、标题、实验编号、序列获取号、微量滴定板编号以及相关克隆的结果。每个克隆的更多信息通过超文本链接至其他数据库如dbEST、GenBank或Unigene,代谢途径信息也可通过链接至KEGG得到。

通过序列相似性搜索可以有效地寻找目的基因。ArrayDB支持对10K/15K数据(软件自带数据)进行BLASTN搜索以便确定目的基因是否已包含在芯片中。

ArrayDB能分析单个和多个实验产生的信号强度比值的类型和关系。ArrayViewer工具支持查询和分析单个实验;MultiExperiment viewer工具支持多个实验数据。在下述网站可得到更详细信息和相关软件。

DeArray和ArrayDB网址: http://www.nhgri.nih.gov/DIR/LCG/15K/HTML

 

2.基因表达公共数据库

数据库用途

(1)基础研究 将来自各种生物的表达数据与其它各种分子生物学数据资源,如经注释的基因组序列、启动子、代谢途径数据库等结合,有助于理解基因调控网络、代谢途径、细胞分化和组织发育。例如,比较未知基因与已知基因表达谱的相似性能帮助推测未知基因的功能。

(2)医学及药学研究 例如,如果特定的一些基因的高表达与某种肿瘤密切相关,可以研究这些或其它有相似表达谱的基因的表达的影响条件,或研究能降低表达水平的化合物(潜在药物)。

(3)诊断研究 通过对数据库数据进行基因表达谱的相似性比较对疾病早期诊断具有临床价值。

(4)毒理学研究 例如,了解大鼠某种基因对特定毒剂的反应可帮助预测人的同源性基因的反应情况。

(5)实验质量控制和研究参考 实验室样本与数据库中标准对照样本比较能找出方法和设备问题。此外,还能提供其他研究者的研究现状,避免重复实验,节约经费。

数据库的特点和难点

目前急需建立标准注释的公共数据库,但这是生物信息学迄今面临的最复杂且富有挑战性的工作之一。主要困难来自对实验条件细节的描述,不精确的表达水平相对定量方法以及不断增长的庞大数据量。

目前所有的基因表达水平定量都是相对的:哪些基因差异表达仅仅是与另外一个实验比较而言,或者与相同实验的另一个基因的相比而言。这种方法不能确定mRNA的拷贝数,转录水平是总的细胞群的平均水平。结果导致采用不同技术进行基因表达的检测,甚至不同实验室采用相同技术,都有可能不能进行比较。对不同来源数据的进行比较有必要采取两个步骤:首先,原始数据应避免任何改动,比如采取数据标准化(data-normalization)的方法。其次,在实验中设计使用标准化的对照探针和样本以便给出参考点至少使来自同一实验平台的数据标准化。

另一难点是对实验条件的描述,解决方法是对实验方法用采用规范化词汇的文件描述:如基因名称,物种,发育阶段,组织或细胞系。还要考虑偶然的不受控制实验因素也可能影响表达:例如空气湿度,甚至实验室的噪音水平。目前建立一种结构能对将来实验设计的所有细节进行描述显然是不可能的。比较现实的解决办法是大部分采用自由文本描述实验,同时尽可能加上有实用价值的结构。DNA芯片实验的标准注释必须采用一致的术语,这有待时间去发展。但目前,就应采用尽可能合理的标准用于DNA芯片数据及其注释。

标准化的基因表达公共数据库要有五类必要的信息:

(1)联系信息:提交数据的实验室或研究人员的信息。

(2)杂交靶探针信息:对阵列上的每个“点”,应有相应的DNA序列在公共数据库中的编号。对cDNA阵列,克隆识别号(如IMAGE clone_id)应给出。

(3)杂交样本:细胞类型和组织来源用标准语言描述。常规诊断病理中使用的组织和组织病理词汇可被采用,还可采用胚胎发育和器官发生中的标准词汇。样本来源种属的分类学名称(如Saccharomyces cerevisiae,Homo sapiens),应当提供。对有些生物体如啮齿类动物和微生物,品系资料需要提供。关于实验中生物体状况的资料,如用药或未用药非常关键,也需提供。“肿瘤与正常”或不同发育阶段也该注明。细胞或生物体的遗传背景或基因型在特定例子中也应是重要的,如酵母基因缺失和转基因鼠。最后,由于组织处理的会引起差别,故应包括相关的详细处理方法。

(4)mRNA转录定量:这方面非常关键,很难通过一组“持家基因”做内参照进行标准化,有关的具体定量方法应提供。

(5)统计学意义:理想地,应经济合理地有足够的次数重复一个实验以便给出基因表达测定的变异情况,最好能提供合理的可信度值。

上述表达数据记录的前两个要求是简单的,第三个要求较困难需有标准术语协议,但这并不只是表达数据的要求,类似的要求已在公共序列数据库或专业化的数据库中得到成功解决。目前基因表达数据最富有挑战性的方面是最后两个方面。

现状和计划

几个大的芯片实验室如斯坦福大学和麻省理工学院Whitehead研究所等,在发展实验室内部数据库;大的商业化芯片公司如Affymetrix, Incyte,GeneLogic,正在开发基于Affymetrix芯片技术平台的商业化基因表达数据库。哈佛大学已经建立了一个的数据库,数据来自几个公共来源并统一格式。宾夕法尼亚大学计算生物学和信息学实验室正在整合描述样本的术语。

目前至少有3个大的公共基因表达数据库项目:美国基因组资源国家中心的GeneX;美国国家生物技术信息中心(NCBI)的Gene Expression Omnibus;欧洲生物信息学研究所(EBI)的ArrayExpress.

欧美专家合作提出有关数据库的初步标准:实验描述和数据表示的标准;芯片数据XML 交换格式;样本描述的术语;标准化、质量控制和跨平台比较;数据查询语言和数据挖掘途径。(http://www.ebi.ac.uk/microarray/)。EBI与德国癌症研究中心正在开发ArrayExpress , 一种与目前推荐标准兼容的基因表达数据库。该数据库将利用来自合作方的的数据,可操作的数据库将于近期建立(http://www.ebi.ac.uk/arrayexpress)。

3.大规模基因表达谱数据分析方法

芯片分析能够检测不同条件下的基因转录变化,能够显示反映特征组织类型、发育阶段、环境条件应答、遗传改变的基因谱。当芯片数据大量出现,产生了新的问题:如果将所有获得的数据集中起来,我们能否将未知功能的新基因归类到已知功能分类中?能否将基因表达与基因功能联系起来?能否发现新类型的共调控基因?能否从芯片表达数据中得出完整的基因调控网络?这些唯有通过计算的方法。基因制图及测序所面临的问题与大规模基因表达分析的数学问题相比要小的多。这种新类型的表达数据使我们直接面对生物系统和基因组水平功能的复杂性,从生物系统单个成分的定性发展到完整生物系统行为的描述上来,这方面困难很多,目前只有很少的分析工具。

聚类分析(clustering analysis)是大规模基因表达谱目前最广泛使用的统计技术,最近又发展了一种机器学习方法-支持向量机(support vector machines,SVMs)。这些分析方法均处在研究的初级阶段,随着大量数据及标准化数据库的出现,其它数据挖掘技术包括神经网络和遗传算法将在基因表达数据分析中得到应用。

聚类分析

聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终,将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。

斯坦福大学的Michael Eisen开发的Windows平台免费芯片数据分析软件CLUSTER和TREEVIEW,采用配对平均连锁(pairwise average-linkage)聚类分析。这种方法中,每个不同的基因与其它的基因比较,鉴定最相关的基因对。这种基因对的数据用平均数替代,再重新计算关系矩阵,不断重复这个过程。TREEVIEW对CLUSTER计算结果进行图形输出,将芯片中的每个基因的表达比值用彩色方块表示。

尽管CLUSTER软件易于使用且直观,但其算法仍有缺陷之处:实际数据由每次重复的平均数据替代;相似性测定的选择(相关性/Eluclidean距离);将等级模型用于非等级过程;成对比较矩阵的计算负担。因此,出现了其它方法,包括自组织图(self organizing maps,SOMs),二进制决定-退火算法(binary deterministic-annealing algorithm),k-means聚类等。Tamayo等提供Windows平台的SOMs软件包。

CLUSTER和TREEVIE下载网址:http://www.genome.standford.edu

基于知识挖掘的机器学习方法

最近发展了一种的有监督的机器学习方法-支持向量机(support vector machines,SVMs)来分析表达数据,它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的的新基因。与经典的无监督聚类方法(unsupervised clustering)和自组织图(self-organizing maps)不同,该方法建立在已有的知识上并有改进现有知识的潜力。

无监督的聚类方法,例如层级(hierarchical)和K-means聚类,假设每个基因仅属于一“类”(cluster)。这在生物学意义上当然不是真实的。而且,事实上同一类基因不是必然意味着有相似的表达类型。比如,k-means聚类方法事先指定产生的“类”的数量及并将每个基因放在其最优“类”,并不总是有意义。需要对类(cluster)进行质量评价,“类”的“严谨性”和外围基因的存在(如果存在,它们与下一类的接近度)以及一组核心特征基因应在质量上保证。最重要的是应考虑“类”是否有生物学意义。

与无监督的方法产生基因的“类”相比,有监督的学习方法是向已知的“类”学习。训练者必须提供SVMs以每个“类”正反两方面的例子。SVMs提供一种层级的方法来分析芯片数据。首先,对每个基因,应询问最近的邻居是否它与它们的关系是有生物学意义的。其次,对已知共调控基因,应该询问它们的表达类型是否相似,如果是这样,还有哪些其它的基因有相同类型。这些在监督阶段可通过SVMs或优化的SOMs来判断。第三,应该通过无监督的学习方法进行基因分类并询问是否聚类有生物学意义并且包括外围基因。最后,“类”可通过每个无监督的“类”的核心基因训练SVMs的方法来检测和优化。

 

可视化

大规模基因表达数据挖掘另一重要方面是发展有力的数据可视化方法和工具。已经发展了用简单图形显示提供聚类结果的途径,如上述的TREEVIEW软件。对大规模基因表达原始数据的进行不失真的可视化并链接的标注过的序列数据库,可为基因表达分析提供非常有价值的工具,有助于从新的视角看待基因组水平的转录调控并建立模型。

 

7.2 基因组水平蛋白质功能综合预测

蛋白质之间的功能联系

基因组测序计划在产生完全的组成多个亚单位装配和信号通路的蛋白质列表方面取得里程碑式的业绩。这些装配和通路现在必然被制图,Marcotte等和Enright等在此方面走了显著一步。这两个研究小组发展了不是通过氨基酸序列相似性比较的其他特性联系起蛋白质的计算方法。通过比较系统发育(进化)谱和表达类型,以及通过分析结构域融合(domain fusions)新方法识别在代谢通路、信号通路或结构复合体上功能相关的蛋白质。酵母未定性蛋白大约一半 总蛋白数约四分之一可用此方法进行功能注释。因为不依赖于直接的序列相似性,这种方法可预测与已知功能蛋白质缺乏同源性的蛋白质功能。将会发现它们在基因组学中的许多应用,与大规模蛋白质功能实验互为补充。

构建通路和专配有用模型的信息来自实验,最重要的通过蛋白质组学和结构基因组学。蛋白质组学的目标是对所有的蛋白质和蛋白相互作用进行鉴定和定性。它包括采用大规模实验方法如双杂交系统(two-hybrid system)、质谱法(mass spectrometry,MS)、二维凝胶电泳(2D PAGE)和DNA芯片杂交(DNA microarray hybridization)。任务大小和复杂性可由下面的假定理解:每个蛋白质有5-50个功能连锁,结果在一个酵母细胞中就有30,000-300,000个连锁。虽然实验已确定了约30%的酵母的功能,但是它们有时不是迅速廉价的,且不完全。因此需要用计算的方法来预测功能。

计算方法传统上预测功能是通过与性质明确蛋白质的序列相似性比较。这样标注的可行性是因为进化产生享有共同祖先的的同源性蛋白家族,因此有相似的序列、结构,经常还有功能。蛋白质比较允许对酵母另30%的蛋白质功能进行研究。但是,通过同源性进行功能预测受两方面的因素制约。首先,它只能用于与已知功能蛋白质有同源性的未知蛋白质的功能预测。其次,不是总清楚匹配的蛋白质何种功能特性为其共享,尤其对那些距离较远的匹配。

Marcotte等和Enright等并未受此限制,因为他们不依赖与未知蛋白质与已知功能蛋白质的序列相似性。而代替的是,将同样通路和装配的蛋白质分组,定义为“功能连锁”(functionally linked).Marcotte等针对出芽酵亩基因组蛋白质采用了三种不同的方法:系统发育谱(phylogenetic profiles),结构域融合(domain-fusion analysis)和相关mRNA表达类型(correlated messenger RNA expression patterns)。Enright等独立发展了结构域融合分析,采用新的聚类算法用于三个原核基因组分析。

系统发育谱依赖于蛋白质相关进化。两个蛋白质是进化相关的当它们共有一个系统发育谱,定义为蛋白质在一组基因组中的发生率类型。仅当几个完整的基因组比较时系统发育表达谱才能精确计算。两个蛋白质享有相似的系统发育谱被认为是功能连锁(functionally linked)。因此,根据系统发育谱进行的蛋白质聚类,当未知蛋白质与一个或更多的功能已知的蛋白质归为一组时能够提供未知蛋白质的功能信息。

结构域融合的方法鉴定含有两个分别在其它基因组的非同源性成分蛋白(component proteins)组成的融合蛋白(fusion proteins)。这样的成分蛋白被认为彼此物理上有相互作用。在两个相互作用成分蛋白之间的界面(interface)更有可能进化当两个蛋白融合为一条单一链。著名的例子是,从细菌到真菌的色氨酸合成酶的α和β亚单位。在一些方面,结构域融合分析与从基因邻近效应(gene proximity)推测功能连锁相似。

Marcotte等也通过关联它们的mRNA表达类型来对酵母蛋白质进行分类。这些类型来自97组公共DNA芯片数据,显示了大多数酵母蛋白质在正常生长、葡萄糖缺乏孢子形成和突变基因表达的条件下的表达变化。分析建立在认为在一系列相同条件下表达水平相互关联的蛋白质是功能连锁的。

新的功能注释经常是广义的,限制蛋白质的功能为,“代谢”或“转录”。即使随机的一对蛋白质也有50%的相似机率在这样广义的水平上。但是因为注释一般来自许多连锁,比随机连锁信息量大3-8倍,在一些例子中与蛋白-蛋白相互作用的实验决定相比。 例如,Marcotte等建立了新的MSH6的连锁,在某些结肠癌中的DNA错配修复蛋白,属于PMS1错配修复家族,其中的突变也与人结肠癌、嘌呤生物合成途径、RNA修饰酶和一个未知的蛋白质家族相关,这样它们可以通过核酸修复或修饰来研究。

这样的注释精确度如何?能覆盖多少比例的蛋白质?这些问题只能部分提出,因为参考的功能连锁蛋白质不是很容易得到。Marcotte和同事给酵母2,557个未知蛋白的一半预测了一般功能。他们估计成对预测来确定功能的近30%是错误的,虽然两到三种方法联合应用使错误率降到15%。

Enright等通过结构域融合在三个原核基因组中仅功能连锁215个蛋白,但是非常少的估计假阳性。较少的功能连锁率可能由于没有系统发育谱和mRNA表达方法丢失了连锁(作者没有做这两种方法),融合事件更严格的定义以及用较少的蛋白检测融合。尽管假阳性和显得粗糙的功能注释,计算方法使得实验者将注意力集中在有希望的相互作用上。当得到更多的基因组数据,结构域融合和系统发育谱的方法的预测数和精度将增加。

下一步将是提高方法预测蛋白质功能的范围、准确度和精确性。这可能在理论上,通过考虑三维结构来做,因为蛋白质的功能更多直接由它的结构和动力学而不是它的序列来决定。那么为什么在基因组学上结构没有序列用的广泛呢?至少有两个原因。首先,只有一部分蛋白质有三维结构数据。这种限制在几年内随着结构基因组学(structural genomics)的进展而减少。结构基因组学的目标是确定大约10,000经仔细挑选的蛋白质结构域的结构,以便所有其它的蛋白质序列能够有很好的精确性建模。其次,能够从结构而不是从序列提取的功能细节依赖于细胞环境下的那种结构的细节,同样也依赖于它的动力学和能量,所有这些在现有的实验和理论技术下难以获得。
9楼2005-06-07 17:15:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 88 个回答

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫


miRNA(金币+1):谢谢!!
不错的高通量表达谱分析讲座(转自dxy)
2楼2005-06-07 16:23:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
miRNA(金币+2):谢谢!!
liubird(金币+50):支持斑竹开展有意义的活动!
概述

当前人类基因组研究已进入一个重要时期,2004年已获得人类基因组的全部序列,这是基因组研究的转折点和关键时刻,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段。到1999年12月15日发布的第115版为止,GenBank中的DNA碱基数目已达46亿5千万,DNA序列数目达到535万;其中EST序列超过339万条; UniGene的数目已达到7万个;已有25个模式生物的完整基因组被测序完成,另外的70个模式生物基因组正在测序当中;到2005年初为止,人类基因组的序列完成测定;同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。

生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。

近来的研究表明,基因组不仅是基因的简单排列,它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构,解译生命的遗传语言的关键。

目前在数据库中已经有越来越多的模式生物全基因组序列,第一个人类染色体全序列--第22号染色体的测序工作已经在1999年12月完成,整个人类基因组计划工作草图将在最近完成。这无疑给基因组组织结构和信息结构的研究工作提供了大量的第一手材料,同时也为基因组研究取得突破性进展提供了可能。人类对基因的认识,将从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系。

从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面:

生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。
基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际EST 数据库 (dbEST) 和各自实验室测定的相应数据,经过大规模 并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。
功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。
生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。
生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索DNA序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。
应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。
利用生物信息学方法进行结构功能预测要注意的是同一问题采用不同算法,可能产生相同或不同的结果。因此,必要弄清楚某种方法的基本原理,而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适,而对另一个则完全不对。因此,本章采用原理和实用方法并重的原则进行介绍。因生物信息学覆盖面广,限于篇幅,本章并未将生物信息学的全部内容详细加以讲述,仅针对与目前分子生物学实验数据分析密切相关的生物信息学策略及实用工具进行扼要介绍,文中涉及问题的更详细信息可参考相关网站。

[ Last edited by BlueGuy on 2005-6-7 at 16:47 ]
3楼2005-06-07 16:44:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫

★ ★
miRNA(金币+1):谢谢!!
zhlpower(金币+1):继续加油
2 生物信息数据库与查询

近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。

一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。

下面将顺序简要介绍一些著名和有特色的生物信息数据库。

2.1 基因和基因组数据库

1. Genbank

Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。到1999年8月,Genbank中收集的序列数量达到460万条,34亿个碱基,而且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。

Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。

(1)Genbank数据检索

NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。

Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。

(2)向Genbank提交序列数据

测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。

BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用说明可详见其网页。

NCBI的网址是:http://www.ncbi.nlm.nih.gov

Entrez的网址是:http://www.ncbi.nlm.nih.gov/entrez/

BankIt的网址是:http://www.ncbi.nlm.nih.gov/BankIt

Sequin的相关网址是:http://www.ncbi.nlm.nih.gov/Sequin/

2. EMBL核酸序列数据库

EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具,也可以用Sequin软件来完成。

数据库网址是:http://www.ebi.ac.uk/embl/

SRS的网址是:http://srs.ebi.ac.uk/

WEBIN的网址是:http://www.ebi.ac.uk/embl/Submission/webin.html

3. DDBJ数据库

日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库提交序列。

DDBJ的网址是:http://www.ddbj.nig.ac.jp/

4. GDB

基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。

GDB的网址是:http://www.gdb.org

GDB的国内镜像是:http://gdb.pku.edu.cn/gdb/

2.2 蛋白质数据库

1. PIR和PSD

PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。

PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。

PIR和PSD的网址是:http://pir.georgetown.edu/

数据库下载地址是:ftp://nbrfa.georgetown.edu/pir/

2. SWISS-PROT

SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。

SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。

SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/

3. PROSITE

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。

PROSITE的网址是:http://www.expasy.ch/prosite/

4. PDB

蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。

RCSB的PDB数据库网址是:http://www.rcsb.org/pdb/

5. SCOP

蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。

SCOP的网址是:http://scop.mrc-lmb.cam.ac.uk/scop/

6. COG

蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。

COG库的网址是:http://www.ncbi.nlm.nih.gov/COG

下载COG库和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG

2.3 功能数据库

1. KEGG

京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。

KEGG的网址是:。

2. DIP

相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质-蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。

DIP的网址是:http://dip.doe-mbi.ucla.edu/

3. ASDB

可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于SWISS-PROT蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。ASDB(核酸)部分来自Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。

ASDB的网址是:http://cbcg.nersc.gov/asdb

4. TRRD

转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD包括五个相关的数据表:TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。

TRRD的网址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/

5. TRANSFAC

TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。此外,还有几个与TRANSFAC密切相关的扩展库:PATHODB库收集了可能导致病态的突变的转录因子和结合位点;S/MART DB收集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费下载,也可以通过Web进行检索和查询。

TRANSFAC的网址是:http://transfac.gbf.de/TRANSFAC/

2.4 其它数据库资源

1. DBCat

DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类。包括DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检索查询。

DBCat的网址是:http://www.infobiogen.fr/services/dbcat/

下载DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat

2. PubMed

PubMed是NCBI维护的文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。

PubMed的网址是:http://www.ncbi.nlm.nih.gov/

除了以上提及的数据之外,还有许许多多的专门生物信息数据库,涉及了目前生物学研究的各个层面和领域,由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库,如欧洲分子生物学网络组织EMBNet中国节点北京大学分子生物信息镜像系统,上海博容基因公司与上海嘉瑞软件公司合作开发的国产汉化基因数据库及分析管理系统,同时国家级的生物信息学中心也在筹建之中。我们期待国内能有更多高质量和使用便利的数据库资源,推动我国生物信息学和整个生命科学的发展。

清华大学生物信息学研究所网址:http://bioinfo.tsinghua.edu.cn

北京大学生物信息镜像系统网址:http://cbi.pku.edu.cn
4楼2005-06-07 16:46:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复(可上传附件)
信息提示
请填处理意见