24小时热门版块排行榜    

查看: 1468  |  回复: 7
当前主题已经存档。

allbeauty

银虫 (正式写手)

[交流] 【讨论】药物设计常用方法之QSAR方法介绍

一:QSAR方法定义和发展过程简介
定量构效方法(quantitative structure-activity relationship, QSAR)是应用最为广泛的药物设计方法。所谓定量构效方法就是通过一些数理统计方法建立其一系列化合物的生理活性或某种性质与其物理化学性质之间的定量关系,通过这些定量关系。可以预测化合物的生理活性或某些性质,指导我们设计出具有更高活性的化合物。
早在1867年,Crum-Brow 和Fraser就提出了构效关系的概念,1900年前后,Overton 和Meyer等提出了麻醉作用的类脂学说,即化学结构各异的麻醉剂其活性随着脂-水分配系数增加而增加的现象,这可能是最早提出的化合物生理活性和物理化学性质之间的定量分配关系模型。但只是到近几十年,尤其是Hansch法提出后,随着计算机技术的发展和多变量解析技术的引入,定量构效关系方法才逐渐发展和应用起来,现在它已经成为药物设计和药物开发中不可缺少的工具。

二:常用QSAR方法介绍

1 二维定量构效关系方法(2D-QSAR)
传统的二维定量构效关系方法很多,有Hansch法、模式识别Free-Wilson法和电子拓扑法。 其中最为著名应用最为广泛的就是Hansch和Fujita提出的Hansch法。它假设同系列化合物某些生物活性的变化是和它们某些可测量物理化学性质的变化相联系的。这些可测量的特性包括疏水性、电性质和空间立体性质等,都有可能影响化合物的生物活性。Hansch法假定这些因子是彼此孤立的,故采用多重自由能相关法,借助多重线性回归等统计方法就可以得到定量构效关系模型。Hansch法最初可以表达为下面的公式
lg1/c=algp+bσ+cE+……+constant   
既活性和疏水性参数π或lgp、电负性参数σ以及立体参数E有关。后来Hansch发现药物要交替穿过水相和类脂构成的体系,其移动难易程度和lgp呈现出函数关系。如果经过一定时间后药物在最末一相中为浓度lgc,则以lgc对lgp作图,可以发现它们之间呈抛物线关系,因此上式又可以写成下面的形式
lg1/c=a(lgp)2+b lgp +cσ+cE+……+constant  第一个式子适用于体外活性数据,而第二个式子适用于体内活性数据。
Hansch和Fujita等人最初所采用的构效关系模型中,仅采用了一些简单的分子参数。但对于一个分子来说,可以用很多分子参数来表示分子的不同特征,比如各种拓扑参数、热力学参数、量化计算得到的参数以及分子形状参数等。研究结果表明用这些参数往往能得到更好的结果。因此在实际应用过程中,我们总是尽量选择最佳参数来得到最有效的模型而不必局限于Hansch和Fujita所提出的参数。
  此外除了传统的线性回归方法之外,一些新的数理统计方法非数值算法也被用于构效研究中,如偏最小二乘法、人工神经网络及遗传算法等,这些新方法的应用大大推动2D- QSAR方法的发展。

2 三维定量构效关系方法(3D-QSAR)
近些年来,随着构效关系理论和统计方法的进一步发展,又出现了一些三维定量构效关系(3D-QSAR)方法。譬如分子形状分析(molecularshape analysis, MSA)、距离几何方法(distance geometry, DG)和以及比较分子场分析(comparative molecular field analysis, CoMFA)方法。
与2D-QSAR比较,3D-QSAR方法在物理化学上的意义更为明确,能间接反映药物分子和靶点之间的非键相互作用特征。因此近十多年来3D-QSAR方法得到了迅速的发展和广泛的应用。在3D-QSAR方法中,比较分子场分析(comparative molecular field analysis, CoMFA)方法是目前最为成熟且应用最为广泛的方法。

2.1 比较分子场分析(comparative molecular field analysis, CoMFA)方法简介
  CoMFA的基本原理是:如果一组相似化合物以同样的方式作用于同一靶点,那么它们的生物活性就取决于每个化合物周围分子场的差别,这种分子场可以反映药物分子和靶点之间按的非键相互作用特性。其计算可以简单的分为三个步骤(1)首先确定药物分子的活性构象,再按一定的规则(一般为骨架叠加或场叠加)进行药物分子的叠合;(2)然后,在叠合好的分子周围定义一定的步长均匀划分产生格点,在每个格点上用一个探针离子来评价格点上的分子场特征(一般为静电场和立体场,有时也包括疏水场和氢键场);(3)最后通过偏最小二乘方法建立化合物活性和分子场特征之间的关系并给出各种分子面的等势能面。
  近年来,研究人员对传统的CoMFA进行了大量的改进,其中涉及到活性构象的确定,分子叠加规则、分子场势函数的定义以及分子场变量的选取等等,在很大程度上提高了CoMFA计算的成功率。其中最具有代表性的可能就是比较分子相似因子分析(comparative molecular similarity indices analysis, CoMSIA)方法。

2.2 比较分子相似因子分析(comparative molecular similarity indices analysis, CoMSIA)方法简介
  与CoMFA方法相比,最大的不同就是分子场的能量函数采用了与距离相关的高斯函数的形式,而不是传统的Coulomb 和Lennard-Jones 6-12势函数的形式。CoMSIA方法中共定义五种分子场的特征,包括立体场、静电场、疏水场以及氢键场(包括氢键给体场和氢键受体场)。这五种分子场可以通过公式计算得到。在CoMSIA方法中,由于采用了与距离相关的高斯函数形式,可以有效地避免在传统CoMFA方法中由静电场和立体场的函数形式所引起的缺陷。由于分子场能量在格点上的迅速衰退,不需要定义能量的截断(cutoff)值. 对一些实际体系进行了这两种方法的比较结果分析,在计算中采用了不同的格点数,且对体系均采用全空间搜索策略。结果表明CoMFA计算对不同的格点大小值以及叠合分子不同的空间取向非常敏感,采用不同的空间取向时,回归系数的差值最大可以达到0.3以上。而CoMSIA方法在计算不同格点大小取值以及分子空间取向下得到的结果则稳定的多,在一般情况下,CoMSIA计算会得到更加满意的3D-QSAR模型。

3. 4D-QSAR方法简介
1997年,hopfinger等提出了4D-QSAR的概念。作者首次采用遗传算法选择分子动力学产生的构象来产生最佳的构效关系模型。在这个方法中,作者用每个格点对用的原子占有率来作为PLS的变量,作者根据原子的不同特征定义了七种不同种类的原子模型。在4D-QSAR方法中,作者考虑了药物分子的整个构象空间,而不是一个分子,而且考察了多种原子叠合方式,因此在概念上比传统的CoMFA方法有一定的进步

三 建立定量构效关系的方法

3.1 线性回归方法
在传统二维构效研究中,多重线性回归(multiple linear regression, MLR)方法是最为常见的统计方法。一个分子可以用很多分子参数来表达,但在建立多重线性回归模型的时候,为避免过拟合(overfitting),我们只能从这些物理化学参数中选择一部分参数来建立回归模型。一般来讲,同系物数目和所选取参数数目的比应大于3~5,也有人提出应大于2的n次方(n表示选取的参数个数),怎样选取合适的参数一直是定量构效关系研究中的一个难题,而且对于线性回归来说,当体系噪声较强或干扰严重时,有可能导致所得的模型失真,为了克服多重线性回归的不足,在数学上可采用主成分回归方法。
所谓主成分回归就是采用主成分分析方法(principle component analysis, PCA)对活性影响最大的几个主要成分建立定量构效关系模型。所谓主成分是一组新的变量,它是原来变量Xij的线性组合,第一个主成分所能解释原量的方差最大,第二个次之,第三个再次之,往下依此类推。也就是说,主成分是一种线性组合,用它来表示原来变量所产生的平方误差最小。运用主成分分析,原变量矩阵X可以表达为得分(即主成分)矩阵T, 该矩阵由本征矢量上的投影所得。主矩阵与矩阵的本征矢量一一对应,即XP=T。主成分回归可以有效解决共线问题,同时由于去掉了不太重要的主成分,因而可以削弱噪声(随机误差)所产生的影响。主成分回归可以分为两步:1 测定主成分数,并通过主成分分析将X矩阵降维;2 对于降维的X矩阵再做线性回归分析。但是如果在第一步消去的是有用的主成分,而保留的是噪声,则第二步多元线性回归所得的结果就将偏离真实的数学模型。
在主成分回归法的第一步中,我们处理的仅是X矩阵,对于矩阵Y中的信息并未考虑。事实上,Y中可能包含有用的信息,所以一种很自然的想法是测试矩阵X因子时同时考虑矩阵Y的作用。偏最小二乘法在考虑自变量的同时也考虑因变量的作用,同时通过折衷各自空间内的因子使模型较好的同时描述自变量和因变量,从而有效地减少相关因素的影响。
在构效关系研究过程中,还用到了许多其他的数理统计方法,比如说逐步回归方法、非线性最小二乘方法以及一些模式识别方法等,在此就不一一介绍。

3.2 遗传算法

3.2.1遗传算法简介
遗传算法(genetic algorithm, GA)基本思想源自于达尔文的自然选择学说。它表明遗传和变异是决定生物进化的内在因素,生物的遗传特性,使生物界的物种保持相对稳定,而变异特性则使生物个体产生新的性状,以至于形成新的物种,推动了生物的进化和发展。
遗传算法是模拟达尔文遗传选择和自然淘汰生物进化过程的计算模型。它的思想源自于生物遗传学和适者生存的自然规律,是具有“生存+检测”迭代过程的搜索算法。遗传算法以一种群体中的所有个体为对象,并利用随机化技术指导对一个被编码的参数空间进行高效搜索。其中,选择、交叉和变异构成了遗传算法的遗传操作。参数编码、初始群体的设定、适应度函数的设定、遗传操作设计、控制参数设定五个要素组成了遗传算法的核心内容。
遗传算法的主要特点是1直接对结构对象进行操作,不存在求导和函数连续性的限定;2具有内在的隐并行性和更好的全局寻优能力;3 采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应的调整搜索方向,不需要确定的规则。遗传算法的这些性质已被人们广泛的用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。作为一种新的全局优化搜获方法,遗传算法以其简单通用、适用于并行处理以及高效、实用等显著特点在各个领域得到了广泛的应用,取得了良好的效果,并逐渐成为最为重要的智能算法之一。
遗传算法的兴起是在80年代末至90年代初,最初只是用于多肽的构象分析,近些年来,遗传算法在工业分析、光谱分析、蛋白质三级结构预测和数据分析等方面也取得了广泛应用。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

分子结构如果和它们的性质毫不相关,
那么化学还搞个什么劲?
2楼2008-05-19 11:12:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ibola

金虫 (正式写手)

这东西需要超强的物理,化学,数学功底,还需要艺术家的想象力,想做好真的不容易,希望中国能多一些这方面的强人,这样中国的新药研发才有希望!
3楼2008-10-08 14:17:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

DJJ20087097

金虫 (小有名气)

这个将是一个很大的课题,有很大的潜力!
4楼2008-10-09 12:26:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 allbeauty 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见