| 查看: 1907 | 回复: 19 | ||||
| 当前主题已经存档。 | ||||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | ||||
longtian1755银虫 (初入文坛)
|
[交流]
蛋白质结构预测及方法介绍 一搜索无重复
|
|||
| 若大家感兴趣的话 请留下邮箱 发给大家共同学习 |
» 收录本帖的淘帖专辑推荐
生物信息学 |
» 猜你喜欢
为什么nbs上溴 没有产物点出现呢
已经有10人回复
救命帖
已经有11人回复
招博士
已经有5人回复
青椒八年已不青,大家都被折磨成啥样了?
已经有6人回复
青年基金C终止
已经有3人回复
26申博求博导推荐-遥感图像处理方向
已经有4人回复
限项规定
已经有7人回复
西南交通大学国家级人才团队2026年博士研究生招生(考核制)—机械、材料、力学方向
已经有3人回复
英文综述是否需要润色及查重
已经有5人回复

kunzheng15
至尊木虫 (正式写手)
- 应助: 0 (幼儿园)
- 金币: 13270.3
- 帖子: 806
- 在线: 775小时
- 虫号: 512610
- 注册: 2008-02-26
- 性别: GG
- 专业: 生物大分子结构与功能
|
在进行二级结构预测时,根据氨基酸片段计算点模式,如果点模式的值为α螺旋的特征数,则片段预测为α螺旋;若为β折叠的特征数,则片段预测为β折叠。其余的预测为无规则卷曲。这种方法的三态预测准确率为55%左右,其中对无规则卷曲预测过多,而对β折叠则预测不足。当序列长度小于50时,准确率较高。 上述方法定性描述序列片段的亲、疏水特征,通过特征模式识别来预测蛋白质的二级结构。另一种方法是直接计算序列片段的疏水性和疏水矩,并根据定量计算结果预测该片段对应的二级结构。序列片段疏水性计算的方法依赖于各个氨基酸残基疏水值。对于一条蛋白质序列,用一个滑动窗口扫描该序列,计算滑动窗口下各个氨基酸的平均疏水值 和疏水矩 。窗口的宽度是可以调整的,一般取9~15残基的窗口宽度,以获得较多的信息和较小的噪声干扰。平均疏水值 的计算公式如下: 其中Hi是片段第i残基的疏水值。疏水矩 的计算公式如下: 其中Si是a碳原子到侧链中心的单位矢量。 按照公式(7-12)的计算结果,画出整个蛋白质的疏水曲线,形成疏水性图。图7.3是人类视紫质蛋白的疏水图。与蛋白质疏水图相对应的是蛋白质的疏水矩图。通过分析这些图谱,可以帮助预测蛋白质的二级结构。 7.2.5 最邻近方法 早期,由于缺乏数据,预测方法大多是基于单条序列的。随着序列和结构数据的增加,人们的研究转向同源序列分析,充分利用隐藏在同源序列中的结构信息,使得结构预测的准确率得到了较大的提高。同源分析的基础是序列比较,通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果。在Levitt等人建立的方法中,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。这一方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列Ti进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。 基于上述的策略,最邻近方法(Nearest Neighboring methods)在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。在学习阶段,用一个滑动窗口(例如长度为15)扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小。通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U’与上述训练片段相比较,找出50个最相似的训练片段。假设这些相似片段中心残基各种二级结构的出现频率分别为fa、fb 和fc ,用它们预测片段U’中心残基的二级结构,可以取频率最高的构象态作为U’中心残基的二级结构,或者直接以fa、fb 和fc 反映U’中心残基各种构象态可能的分布。根据处理过程的特点,最邻近方法又称为相似片段法。 7.2.6 人工神经网络方法 人工神经网络是一种复杂的信息处理模型。随着神经网络研究的兴起,科学家们也将神经网络用于生物信息学,其中包括二级结构的预测、蛋白质结构的分类、折叠方式的预测以及基因序列的分析等等。将神经网络用于二级结构预测最早是由Qian和Sejnowskit提出的,他们受到神经网络在文字语言处理方面应用的启发,将蛋白质序列看作是由各种氨基酸字符组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。早期的神经网络方法能够得到63-65% 的二级结构预测准确率,利用多序列比对的信息对二级结构预测的准确率能够达到70%。 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层以及输出层。每一层由若干神经元组成,输入层神经元与隐含层的神经元是完全连接的,即任何一个输入层神经元都与任何一个隐含层的神经元连接,在图7.4中用一个大箭头表示。同样,隐含层神经元与输出层的神经元也是完全连接的。输入层用于接收蛋白质窗口序列数据。沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因此,输入层共有21*(2m+1)个神经元。在图7.4中,对于每个残基,仅画出3个神经元。输出层有3个神经元,分别对应于窗口中心残基的H、E、C三态。输入层中编码一个残基的21个神经元只有一个处于激发状态,即设置为1,其余为0,对应于一种氨基酸残基。类似地,代表中心残基二级结构状态的输出单元的期望输出为1,其它两个单元为0。在这样一种神经网络模型中,隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映射是非线性的。通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系。隐含层的神经元个数一般从2个变化到几十个,隐含层的神经元越多,则神经网络对训练实例的记忆能力越强,但是神经网络的推广能力将越弱,对新蛋白质二级结构预测的准确率越低。因此,在实际应用中需要通过大量实验,选择合适的隐含层神经元个数。 神经网络通过神经元之间的连接存贮信息或知识,因此,神经网络学习的过程实际上是调整网络中各连接权值的过程。神经网络中各层之间的连接权值调整采用反向传播BP算法(相应的网络称为BP 网)。在训练或学习过程中,将结构已知的蛋白质序列由输入层输入,不断调整神经网络神经元之间的连接权重及网络节点的偏置,直至实际输出与期望值差别最小为止。在训练过程的每一步,取一个窗口中的序列及窗口中心氨基酸所对应的二级结构作为已知的映射结果,调整网络映射行为,使之与已知映射关系相一致。训练完毕后,得到一个已确定参数并且可以进行结构预测的实际神经网络。 与前述其它方法相比,神经网络具有应用方便、计算能力强、预测准确率较高的特点,网络一旦训练完毕,就可以进行快速预测。 目前,蛋白质二级结构预测识别率不高的主要原因是许多预测方法没有使用足够的进化信息和全局信息。蛋白质序列家族中,氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。这里介绍蛋白质二级结构预测软件系统PHDsec所使用的方法。 PHDsec的第一步工作是形成同源序列的多重对比排列。对于一个待预测的蛋白质,PHDsec首先利用BLAST在SWISS-PROT数据库中搜索同源序列,然后再利用MaxHom程序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。 PHDsec的第二步工作是将得到的多重比对的统计结果送到一个神经网络中。这里的神经网络是一个多层的前馈网络,如图7.5所示。整个网络模型包括两个层次。第一层网络进行序列到结构的映射。对于第一层网络的输入包括两个部分,如图7.5(a)、( b) 所示。一部分是序列的局部信息,取自窗口内w(缺省值为13)个氨基酸残基,另一部分是来自整个序列的全局信息。首先,取多重序列比对的w列,如图7.5(a)所示,这里w=7;然后,计算序列局部统计数据以及序列全局数据。局部数据有24个,其中20个数据对应于20种氨基酸,1个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第一个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2个数据分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1个数据表示该位置的保守程度(cons)。全局数据有32个,其中20个数据表示各种氨基酸所占百分比,表示蛋白质长度的数据有4个(分别对应于4个区间,见图7.5(b)),当前窗口到蛋白质N-端和C-端的距离分别有4个。第一层次网络的输出是窗口中心残基二级结构的状态,H代表螺旋,E代表折叠,L代表其它。 第二层次网络是一个从结构到结构的映射,作用是对前一层网络的输出进行校正。第二层网络的输入主要是第一层网络的输出,同时还包括所有全局信息以及局部的保守信息(cons)。所有第二层网络的输入形式表示为:3(二级结构)+1(空缺)+1(cons)+32(全局数据)。第二层网络输出的含义与第一层网络的输出一样。 建立好系统的模型后(开始的时候系统仅仅是一个空壳),PHDsec对神经网络进行训练,通过训练教会神经网络如何正确地预测蛋白质二级结构。训练是一个反复的过程,要求神经网络至少能够正确处理训练数据。PHDsec的训练数据是随机选取的。 由于PHDsec在进行二级结构预测时采用序列多重比对的统计结果,而序列多重比对反映了蛋白质家族的共同特征,提取了结构保守的信息。序列多重比对结果也反映了在进化过程中,哪些部分的结构容易发生变化,而哪些部分的结构对蛋白质的功能非常重要,不能随意改变。这些信息对于蛋白质结构预测来说,是非常关键的。多重序列比对所携带的进化信息也暗示了蛋白质中长程相互作用:假设蛋白质中氨基酸残基i与残基i+100在三维空间中靠在一起,那么,残基i可能的替换类型将受到残基i+100理化特性的约束。这样的长程相互约束关系会反映在多重序列比对中。总之,利用多重序列比对的信息,可以提高二级结构预测的准确性。另外,PHDsec通过两层神经网络的体系,加强了预测结果的校正,由此提高了对b折叠结构预测的准确性。正因为这样,PHDsec预测的准确率比较高,对二级结构预测的准确率达到72%,而且还对序列上每个位点的预测可信度给予统计分析。PHDsec是第一个预测准确率超过70%的二级结构预测方法,比基于单条序列的预测方法提高了近10个百分点。 |
9楼2009-05-05 08:14:57
2楼2009-05-04 13:47:29
math2000
铁杆木虫 (职业作家)
- 应助: 239 (大学生)
- 金币: 5846.2
- 红花: 18
- 帖子: 4810
- 在线: 458.7小时
- 虫号: 235375
- 注册: 2006-04-01
- 专业: 概率论与随机分析
3楼2009-05-04 18:58:32
doctorzhjw
木虫 (文坛精英)
小木虫灌水博士
- 应助: 0 (幼儿园)
- 金币: 4853.5
- 沙发: 1
- 帖子: 11660
- 在线: 5.5小时
- 虫号: 655540
- 注册: 2008-11-16
- 性别: GG
- 专业: 微生物遗传育种学

4楼2009-05-04 19:07:15













回复此楼