|
|
GOR是一种基于信息论和贝叶斯统计学的方法,方法的名称以三个发明人姓名的第一个字母组合而成(Garnier, Osguthorpe, Robson)。信息论是于1950-1960期间发展起来的,其基本理论由Shannon首先提出,主要针对解决信息传递和处理问题。
GOR方法将蛋白质序列当作一连串的信息值来处理,该方法不仅考虑了被预测位置本身氨基酸残基种类的影响,而且考虑了相邻残基种类对该位置构象的影响。GOR针对长度为17的残基窗进行二级结构预测。对序列中的每一个残基,GOR方法将与它N端紧邻的8个残基和C端紧邻的8个残基与它放在一起进行考虑。与Chou-Fasman方法一样,GOR方法也是通过对已知二级结构的蛋白样本集进行分析,计算出中心残基的二级结构分别为螺旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率,从而产生一个17×20的得分矩阵。然后利用矩阵中的值来计算待预测的序列中每个残基形成螺旋、折叠或者转角的概率。GOR方法是基于信息论来计算这些参数的,下面介绍GOR方法的数学基础。
首先考虑两个事件S和R的条件概率P(S|R),即在R发生的条件下,S发生的概率。定义信息为:
若S和R无关,即 ,则 ;若R的发生有利于S的发生,即 , 则 ;如果R的发生不利于S的发生,则有 , 。
使用对数的优点在于可将概率的乘积变为信息值的加和。在二级结构预测过程中,S表示特殊的二级结构类型,R代表氨基酸残基, 就是残基R处于二级结构类型S的概率。P(S)是在统计过程中观察到二级结构类型S的概率。
根据条件概率的定义:
P(S,R)是同时观察到S和R的联合概率,而P(R)是R的出现概率。对现有蛋白质序列数据库和二级结构数据库进行数学统计分析,很容易得到I(S;R)。如果令N为数据库中总的氨基酸残基的个数,fR为残基R的总个数,fS为处于二级结构类型S的残基总数,fS,R为残基R处于二级结构类型S的总数,则:
R处于二级结构类型S的信息值按下式计算:
Robson提出一种信息差的计算公式:
这里,S’ 表示除S之外的其它所有二级结构类型。例如,如果S代表α螺旋,则在三态情况下,S’代表β折叠或者转角。公式(7-6)从正反两个方面给出关于氨基酸残基R与二级结构S关系的信息值。
若R可分为两个较简单的事件R1和R2,则有:
式中第一项表示在R1发生的条件下,R2对事件S的影响,第二项则表示R1对S的影响。上式可改写为
同理,若R可分解为一系列的简单事件R1,R2,…,Rn,则有
这里,R1,R2,…,Rn代表蛋白质序列中一组连续的残基,预测的对象是中心残基,判断它处于什么样的构象态,其它残基作为环境。GOR方法只考虑待预测残基及其两侧各8个残基。
最早期的GOR方法采用了独立事件近似,即
后来的改进GOR方法则考虑了中心残基R1的影响,信息计算公式如下:
通过统计,可以得出各种残基R处于中心残基周围各位置i时的信息值 或 ,它们反映了周边残基对中心残基形成特定二级结构的影响。再通过近似公式(7-10)或(7-11),就可计算出 。对于一条肽链中任一位置残基r 的构象预测过程包括三个步骤:(1)以r 为中心,取其左右两侧共17个残基作为计算的窗口(记为R);(2)取窗口内每个残基的信息值 ,并按照公式(7-10)或者公式(7-11)加和,得到 ;(3)中心残基r的二级结构预测为 最大的二级结构类型S。
假定数据库中有1830个残基,780个处于螺旋态,1050个处于非螺旋态。库中共有390个丙氨酸(A),有240个A处于螺旋态,其余150个 A 处于非螺旋态。可得:
根据公式(7-6),有:
这里H代表二级结构螺旋态,而H’代表除H以外的其它类型二级结构, I(DH;A) 就是丙氨酸A处于中心位置时的螺旋信息值。
早期GOR方法假设窗口内17个残基(包括中心残基及左右两侧各8个残基)是相互独立的,每个残基独立地影响中心残基的二级结构。在此基础上统计了75个蛋白质的结构,总共有12757个残基,所作统计结果为:螺旋29.7%,折叠19.7%,转角12.2%,无规卷曲38.3% 。根据所得到的信息值 ,发现有些残基的信息值中心对称,在窗口中心处其值取最大或者最小。例如,A的螺旋信息值、I的折叠信息值在窗口中心处取最大,这类残基越靠近窗口中心,中心残基就越容易形成特定二级结构;又如,G螺旋信息值、L的转角信息值在窗口中心处取最小,这类残基离窗口中心越近,中心残基形成特定构象的机会越小。有些残基的信息值是不对称的,在一端为正,而在另一端为负。有的残基在N端为正,C端为负,这类残基位于N端时有利于中心残基形成特定构象,例如,E对于螺旋支持程度属于这种情况;有的残基在N端为负,C端为正,当这类残基位于C端时有利于中心残基形成特定构象,比如,K对于螺旋的支持程度属于这种情况。
GOR方法中的信息值构成了20种氨基酸出现在不同位置时的直接信息量表,根据该表和相关计算公式,就可以对一条肽链中任一位置残基的构象进行预测。GOR方法的物理意义明确,数学上比较严格,但计算过程较为复杂。应用GOR方法预测蛋白质的二级结构为螺旋、折叠或者转角的准确率大约为65%。
7.2.4 基于氨基酸疏水性的预测方法
这种方法是一种用物理化学方法进行二级结构预测的方法,或称为立体化学方法。在蛋白质中,氨基酸的理化性质对蛋白质的二级结构影响较大,因此在进行结构预测时需要考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等,根据氨基酸残基各方面的性质及残基之间的组合预测可能形成的二级结构。“疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质最终折叠成的三维空间构象。20种氨基酸的疏水参数见表7.2,其中,高正值的氨基酸具有更大的疏水性,而低负值的氨基酸则更加亲水。
表7.2 20种常见氨基酸的疏水参数。
序号 氨基酸 疏水值
1 Ala(A) 1.8
2 Arg(R) -4.5
3 Asn(N) -3.5
4 Asp(D) -3.5
5 Cys(C) 2.5
6 Gln(Q) -3.5
7 Glu(E) -3.5
8 Gly(G) -0.4
9 His(H) -3.2
10 Ile(I) 4.5
11 Leu(L) 3.8
12 Lys(K) -3.9
13 Met(M) 1.9
14 Phe(F) 2.8
15 Pro(P) -1.6
16 Ser(S) -0.8
17 Thr(T) -0.7
18 Trp(W) -0.9
19 Tyr(Y) -1.3
20 Val(V) 4.2
随着蛋白质结构数据的积累,人们开始注意到一些较简单的序列与结构关系。可以利用各种氨基酸的疏水值定位蛋白质的疏水区域,通过疏水氨基酸出现的周期性预测蛋白质的二级结构。Lim等人很早就对α螺旋和β折叠归纳出了一套预测模式。例如α螺旋的轮状结构特征,轮的一侧通常处于蛋白质的疏水核心,另一侧则常处于亲水表面,如图7.2所示。因此,α螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性,亲水残基多出现在亲水侧面,而疏水残基则多出现在疏水侧面,反映在序列上就是一些特征的亲疏水残基间隔模式。
疏水性氨基酸的位置有助于推断蛋白质中二级结构的定位,通过显示疏水氨基酸的分布分析二级结构。例如,图7.2 是利用HELICALWHEEL程序画出的蛋白质蜂毒素旋轮图。图中各个氨基酸沿螺旋排布,相邻氨基酸之间的旋转角度为100o。疏水性氨基酸L、I和V位于螺旋的一侧,而亲水性氨基酸则分布在另外一侧,显示这个螺旋的两亲特性。
根据蛋白质序列中疏水性氨基酸出现模式,可以预测局部的二级结构。例如,当我们在一段序列中发现第i、i+3、i+4位是疏水氨基酸时,这一片段就被可以预测为α螺旋;当我们发现第i、i+1、i+4位为疏水氨基酸时,这一片段也可以被预测为α螺旋。同样,对于β折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式。不过,由于β折叠受结构环境的影响较大,序列的亲疏水模式不及α螺旋有规则。原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测α螺旋和β折叠。
在Biou等人提出的点模式方法中,将20种氨基酸残基分为亲水和疏水残基,用八残基片段表征亲疏水间隔模式。以一个二进制位代表一个残基,疏水为1,亲水为0,共八位。这样,八残基片段的亲疏水模式就可用1个0~255的数值来表示。α螺旋的特征模式对应的值为9,12,13,17,……,201,205,217,219,237;β折叠的特征模式则由连续的1或交替的01构成。 |
|