24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1078  |  回复: 4
【有奖交流】积极回复本帖子,参与交流,就有机会分得作者 合肥肽库生物 的 1 个金币 ,回帖就立即获得 1 个金币,每人有 1 次机会
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

合肥肽库生物

新虫 (著名写手)


[交流] 细胞穿膜肽的穿膜活性与序列特征的关系

摘要: 细胞穿膜肽(cell penetrating peptides,CPPs)是一种小分子多肽,能够容易地穿过细胞膜.这类分子,尤其是具有靶向功能的CPPs为高效率投送药物到靶细胞带来希望.因此,对其展开研究对于生物医学有着一定的意义.本工作主要从序列水平对具有不同穿膜活性的CPPs进行研究,试图找出影响CPPs穿膜活性的因素,以及不同活性CPPs与非穿膜肽(NonCPPs)序列上的差异,并引入一种分析生物序列的方法.我们基于CPPsite数据库和不同的文献获取CPPs和NonCPPs序列,并进一步从CPPs序列中提取具有高、中、低穿膜活性的穿膜肽(HCPPs、MCPPs、LCPPs)用于构建数据集.基于这些数据集,开展了以下研究:首先,利用方差分析的方法,对不同活性的CPPs以及NonCPPs的氨基酸及二级结构组成进行分析,发现氨基酸的静电与疏水相互作用对CPPs的穿膜活性起到了重要影响,同时螺旋结构和无规卷曲也会影响CPPs的穿膜活性;其次,使用理化性质与长度将不同活性的CPPs展示在二维平面上,发现在某些特殊的性质下不同活性的CPPs与NonCPPs可以产生聚簇现象,HCPPs、MCPPs以及LCPPs和NonCPPs被分成了三簇,这种现象显示了它们之间的差异;最后,本文引入了生物序列理化质心的概念,将组成序列的残基看作质点,进而把序列抽象成质点系进行研究,并将此方法应用到CPPs的分析中,通过PCA方法将不同活性的CPPs投射到三维平面上,结果发现绝大部分CPPs聚在一起,部分LCPPs与NonCPPs聚在一起.此工作对于CPPs的设计,以及理解不同活性CPPs序列上的差异具有一定的意义.另外,本文引入的生物序列理化质心的分析方法也可以用于其他生物问题的分析,同时它们可以作为某些生物分类问题的输入参数,在模式识别中起到一定的作用.
在药物的开发过程中,药物分子在靶细胞中的递送效率是限制药物疗效的一个主要因素,而细胞穿膜肽(cell-penetrating peptides,CPPs)或称之为蛋白转导域( protein transduction domains,PTDs)[1]的发现,为进一步提高药物分子的递送效率,克服这一障碍带来了一线光明.CPPs是一类能够穿膜的小分子多肽,氨基酸残基数目多集中于5~30个残基,富含精氨酸与赖氨酸,多数带有正电荷,pH近似中性[2].CPPs具有强的货物运输能力,如可以作为蛋白质、siRNA[3]、核酸分子[4, 5]和脂质体(liposomes)等的递送载体,亦可以作为药物分子的递送载体.作为理想的递送分子,CPPs与其他非天然的分子相比具有较低的细胞毒性,可以携带多种不同大小和性质的生物活性物质进入细胞[6].然而,随着研究的深入,现有CPPs作为药物递送分子存在一定的不足.例如,非靶向功能的CPPs不能专一性地递送药物分子到病变的靶细胞[7].此外,CPPs如果带有过多的正电荷,这或许会对靶细胞有一定的毒性[8].因此,对CPPs进行深入研究,进而规避CPPs作为药物递送分子的弊端具有重要的意义.目前,国内外学者针对CPPs分子已经进行了一系列的研究:一方面,从实验上寻找或设计各类疾病特异性靶向穿膜肽是药物研发的热点;另一方面,通过计算的方法,对如何设计新型穿膜肽提供指导.计算方法主要包含两种:一种是分子动力学模拟.2014年,我们就CPPs跨膜分子机制及其靶向改造的分子动力学模拟研究进行了评述[9].另一种是生物信息学的手段,很多研究小组通过发展算法及开发预测平台对细胞穿膜肽以及CPPs的穿膜活性进行预测[10, 11, 12, 13].例如,Ankur Gautam等曾使用蛋白质序列谱、二肽的频率作为CPPs的特征向量,以此来预测CPPs,Hansen等则基于氨基酸的理化性质,使用Z-Score来预测CPPs.此外,还有很多课题组为了提高CPPs的穿膜活性,通过实验手段对它们进行人工修饰,进而提高CPPs的药物递送效率.为了系统地研究CPPs,Gautam等[14]建了CPPsite数据库(https://crdd.osdd.net/raghava/cppsite1/).CPPsite数据库1.0版本收录的CPPs已达到843条,既包含天然的,也包含人工设计的CPPs,并根据穿膜活性将其分为高穿膜活性的CPPs(CPPs with high penetrating activities,HCPPs)、中穿膜活性的CPPs(CPPs with medium penetrating activities,MCPPs)和低穿膜活性的CPPs(CPPs with low penetrating activities,LCPPs).
本工作中,一方面,我们分析比较了具有不同活性的细胞穿膜肽在序列上的差异,另一方面,我们提出理化质心的概念用于CPPs的分析,该方法还可用于其他生物学问题的研究,为生物学分类问题的模式识别提供新的输入特征.
1 材料与方法
1.1 数据集的构建
CPPsite数据库中收录了自然存在和人工修饰后的CPPs,从此数据库的1.0版本中获取CPPs序列,并进一步排除含有D型氨基酸的CPPs.最终,得到了仅由L型氨基酸构成的776条CPPs.考虑到位点特异性残基可能会影响到CPPs的穿膜活性,研究中没有对数据集进行去冗余处理,在其他研究中也见到过类似的做法[1].不同穿膜活性的CPPs其序列上必然存在差异,从CPPs数据集中提取了穿膜活性具有明确表述的穿膜肽,例如“High”、“Medium”、“Low”,排除那些穿膜活性不确定的CPPs后,最终得到56条HCPPs,53条MCPPs和81条LCPPs.另外,从文献中选取34条非穿膜肽(Non-cell penetrating peptides,NonCPPs)[10, 11]组成非穿膜肽数据集.各组的长度分布如表 1所示.
图片
1.2 方差分析(ANOVA)
方差分析(analysis of variance,ANOVA)可以用于多个样本之间均数显著性差异的分析[15],其基本思想是通过分析每种因素对总变异的贡献关系,来确定各因素对总变异产生的影响,进而确定影响总变异的主要因素.本工作构建了4个数据集,分别由高、中、低及非穿膜活性的多肽组成,对每种数据集中的20种氨基酸的含量进行了计算,并对每个组别的相同氨基酸的含量进行了方差分析.在统计检验过程中通常将P 的阈值设置为0.05或者0.01,以此阈值作为判断显著性差异的标准.为了使分析结果更加可靠,我们采用了0.01这一阈值,当P ≤0.01时,则认为它们的含量具有显著性差别,并认为它们对CPPs的穿膜活性产生了影响.
1.3 序列的理化性质与长度分布
所构建的数据集中,还有一些意义不明确的氨基酸X、B、Z、U.其中,X表示20种常见氨基酸的任一种,U代表硒代半胱氨酸,Z表示谷氨酸或谷氨酰胺,B表示天冬氨酸或天冬酰胺.在接下来的讨论中,如果不同活性的CPPs或者NonCPPs中的多肽含有这些氨基酸残基,将会对这些残基的理化性质做一个近似的处理:X用20种常见氨基酸的平均理化性质来代替;U用半胱氨酸的理化性质来代替;B用天冬氨酸与天冬酰胺的平均理化性质来代替;Z的理化性质则用谷氨酸与谷氨酰胺理化性质的平均值来代替.从文献中选取了氨基酸的疏水性指数(H1)、亲水性指数(H2)、氨基酸的分子质量(M)、氨基酸氮端与碳端的解离常数值(pK1和pK2),以及氨基酸的等电点(pI)等性质用于分析理化性质对CPPs穿膜活性的影响.所有的这些性质可以从https://www.csbio.sjtu.edu.cn/bioinf/PseAA/ ParaValue.htm获取.对组成肽链的所有氨基酸,将所关注的性质按照公式(1)进行计算,即得到该性质的< p>值:
图片
上式(1)中p0(AAi)表示氨基酸AAi的理化性质p0,L表示每类数据集中最长穿膜肽的序列长度.于是每一条肽可以用点(< p>,l)表示(l表示对应CPP的真实长度),由于选取了6种理化性质,所以对于每条序列可以计算6组(< p>,l),我们将以此来展示不同活性的CPPs与NonCPPs序列上的差异,以及理化性质对其穿膜活性的影响.
1.4 生物序列的理化质心
为了进一步从全局角度对不同活性的CPPs与NonCPPs进行研究.我们从物理学中质点系的角度引入了生物序列理化质心的概念,其基本思想是将生物序列等效成一系列的点来研究.为了引入生物序列理化质心这一概念,首先规定序列中每个氨基酸残基的坐标:如果一条序列从N端到C端从1开始对序列进行编号,考察长度为L的生物学序列的第i个残基,那么(xi,yi)表示的是第i个氨基酸的一级结构序列坐标.xi和yi可以由下面的公式计算得到:
图片
如果给定(xi,yi),那么就可以用上述的公式 (2) 计算出i与l.因此,坐标(xi,yi)包含残基的位置与生物序列的长度这两个方面的信息.如果把生物序列看成一个质点系,而组成它的残基看成质点系中的质点.于是,进一步模仿物理学中质心的概念,将其引入生物序列的分析之中.对于给定的任何一条生物学序列,都可以计算这条序列的理化质心,计算公式如下:
图片
公式(3)中p(AAi)表示肽链的第i个氨基酸残基的性质p,p是选取的6种理化性质之一的标准化值(公式(4)).(Xc,Yc)表示性质p下的理化质心,它可以从整体的角度反应所考察序列的性质.由于上述公式包含了之前定义的坐标信息,所以点(Xc,Yc)可以从一定程度上反映出序列的长度信息与氨基酸的位置信息.此外,通过计算6组性质下的(Xc,Yc),我们就可以使用这些点来研究生物学序列.一方面,它能反映整个序列某个性质分布最集中的点;另一方面,通过序列的理化质心还可以将一条抽象的序列转化成具体的点进行考察.某些序列上的差异可以通过这些点的分布进一步在几何图像上显示,更形象地显示出不同活性CPPs,以及NonCPPs序列上的一些差异,这是该参数的优势之一.其次,它也可以作为某些生物模式识别的输入参数,根据所选取的理化参数的数目,(Xc,Yc)数目也会相应增长,提取到更多有价值的信息.基于此,我们认为它的引入对于CPPs的分析是有一定帮助的.由于不同氨基酸的理化性质之间的量纲不同,这就导致了不同类型的性质之间存在较大的差异.因此,在计算生物序列的理化质心之前,先用下面的公式对各种性质进行标准化处理.
图片
式(4)中p0表示氨基酸标准化以前的性质,<p0>为p0的平均值,std(p0)是p0的标准差,p表示标准化以后的性质.所有的性质可以在https://www.csbio.sjtu.edu.cn/bioinf/PseAA/ParaValue.htm获取.
2 结果与讨论
2.1 不同穿膜活性CPPs中具有显著差异的氨基酸
我们分别计算了高、中、低活性的CPPs以及NonCPPs数据集中每条短肽的每种氨基酸的含量,并用单因素方差分析方法对相同氨基酸在不同数据集中的含量进行了分析.如果P≤0.01,则认为该氨基酸在不同的数据集中含量具有显著的差异,这些氨基酸在决定CPPs的穿膜活性方面起了关键的作用.图 1中横坐标表示氨基酸,纵坐标表示对应氨基酸含量在不同类别数据集中的P值,P≤0.01的氨基酸在图 1中用箭头指示.
图片
图 1显示,氨基酸W、M、S、G、L、K、Y、H和C的P≤0.01,说明这些氨基酸在不同活性的CPPs中含量具有显著性差异,它们对于CPPs的穿膜活性起到了重要的作用.进一步分析可以发现,这些氨基酸按照其理化性质分成两类:极性和非极性的氨基酸 (S、G、Y、W、M、L、C)以及带电荷的氨基酸(K、H).前者的含量可以影响CPPs与NonCPPs的整体疏水性,而疏水性的强弱会影响多肽与脂膜的相互作用;后者则影响了CPPs与NonCPPs整体的带电水平,脂膜外层的磷酸基团则带有一定的负电荷,所以小肽的带电水平可以影响其与脂质膜的静电相互作用.这提示,在人工设计CPPs时,这些氨基酸是重点考虑的对象之一.最近有研究发现H16(HHHHHHHHHHHHHHHH-NH2)具有很高的穿膜活性[16],该条肽中的H含量与数据集中的MCPPs、LCPPs中含有的H差别明显,图 1也表明H的含量在不同活性的CPPs与NonCPPs中也具有较小的P值,这与我们的研究是一致的.此外,有的研究也指出,带正电荷的氨基酸对于CPPs的穿膜活性起了重要的作用[16],而图 1显示具有显著性差异的氨基酸K、H也带有正电荷,二者是一致的.值得注意的是如果将显著性差异的阈值P由0.01调整为0.05,非极性氨基酸F,极性氨基酸N,以及另外一个正电荷氨基酸R也分别被包含进极性、非极性和带电荷的氨基酸分类中.
2.2 理化性质与长度分布显示了不同活性穿膜肽之间的差异
使用1.3的方法计算了不同穿膜活性的CPPs以及NonCPPs中每条肽的< p>值.每一条CPPs与NonCPPs都可以用(< p>,l)这样一个点来表示.分别选取氨基酸的疏水性指数(H1)、亲水性指数(H2)、分子质量(M)、氨基酸氮端与碳端的解离常数(pK1和pK2)以及氨基酸的等电点(pI)计算< p>,将不同活性的CPPs以及NonCPPs展现在二维图上,如图 2所示.图 2中蓝色菱形表示MCPPs,红色实心圆圈表示HCPPs,绿色五角星表示LCPPs,黑色正方形表示NonCPPs.在图 2a~c,f中,发现代表不同穿膜活性CPPs的点混在一起,表明这些氨基酸相应性质的参数(疏水性指数H1、亲水性指数H2、分子质量M以及氨基酸的等电点pI)不能很好地区分CPPs的穿膜活性.而在图 2d,e中,对应低穿膜活性LCPPs的点(绿色)和对应非穿膜肽NonCPPs的点(黑色)混在一起,分别与对应高穿膜活性HCPPs点(蓝色)、中穿膜活性MCPPs点(红色)区别明显.这说明CPPs的序列长度与每条肽的pK1、pK2计算出的< p>可以用来分析CPPs的穿膜能力.进一步分析可知,pK1、pK2与CPPs侧链的结合解离有关,这一点直接影响到CPPs在内环境中的电荷水平,进而影响CPPs与脂膜的相互作用.图 2d,e表明NonCPPs与LCPPs在上述6种性质下的不可分现象,说明它们之间在某些性质上比较接近,这提示某些基于性质的分类器可能会对两者产生错分,从而影响预测效果.此外,在长度限定下,由pK计算出的< p>对CPPs的分簇现象可能是由于长度会影响到CPPs的二级结构所致.CPPsite数据库的1.0版本将CPPs的结构分成了4类(https://crdd.osdd.net/raghava/cppsite1/dssp-com.php):a.螺旋类,包含H(α-螺旋)、G(310-螺旋)、I(π-螺旋);b.β折叠类,包含B(单个的桥,即β桥)、E(延伸的β桥,即β股);c.转角类,包含T(转角)、S(卷曲);d.卷曲(coil,C).我们从CPPsite 1.0版本获得了数据集中每个肽的二级结构,并计算了每个肽中这4类结构的含量,使用方差分析分别对每一类结构在3类不同穿膜活性CPPs中的含量做分析,螺旋(p=0.0036)结构与无规则卷曲(p=0.0063)在3类CPPs中的含量具有显著性的差异,说明这两种结构可能会影响到CPPs的穿膜活性.HCPPs、MCPPs、LCPPs中螺旋结构的平均含量为0.25、0.09和0.18,HCPPs含有更多的螺旋结构,MCPPs和LCPPs则含有相对较低的螺旋结构.而HCPPs相比于MCPPs和LCPPs则具有较少的无规则卷曲结构.由此可以得出结论,CPPs的二级结构、CPPs与脂膜的电荷相互作用及疏水相互作用会共同影响其穿膜活性.
图片
2.3 不同活性的CPPs在理化质心下的分布
对数据集中的每个CPPs或NonCPPs,根据前述残基的6种理化性质,分别计算了序列的理化质心,并使用每种理化性质对应的Xc/Yc的比值来代替CPPs或NonCPPs.由于选取了6种性质,所以每条序列可以用6个数值来描述.对不同活性的CPPs以及NonCPPs分别进行主成分分析,结果显示,HCPPs第一、二、三主成分的累积贡献率达到了90.54%,MCPPs的第一、二、三主成分的累积贡献率达到了90.49%,LCPPs的第一、二、三主成分的累积贡献率达到了81.14%,NonCPPs的第一、二、三主成分的累积贡献率达到了97.84%.根据PCA分析的前3个主成分将研究体系投射到三维平面中,如图 3所示.
图片
图 3显示出HCPPs、MCPPs以及LCPPs的第一、二、三主成分的score之间没有明显的界线,表明HCPPs、MCPPs、LCPPs以及NonCPPs在整体理化性质方面是逐渐变化的,而不是跳跃式变化,当这种变化达到一定的程度,CPPs就会由一种活性转变为另一种活性.此外,这种分布显示不同活性CPPs序列上的差异.同时,图 3中NonCPPs与LCPPs产生了与图 2d,e类似的现象,即它们之间不易分开,表明LCPPs与NonCPPs序列的理化性质之间确实存在某种相似性.
3 总 结
高活性的CPPs不但可以高效地投送药物到细胞,而且某些具有靶向功能的CPPs还可以起到靶向递送的作用.因此,研究CPPs对于生物医学有重要意义.在本研究中,我们开展了以下3个方面的工作:a.基于方差分析,分析了不同活性CPPs以及NonCPPs在氨基酸组成及二级结构组成的差异性,具有显著组成差异的氨基酸包含一些极性与非极性氨基酸 (W、M、S、G、L、K、Y、H、C)和带正电荷的氨基酸(K、H),表明CPPs与细胞膜的疏水与静电相互作用对其穿膜活性有着重要的影响.同时无规卷曲和螺旋结构在三类不同穿膜活性的CPPs中的含量具有显著性差异.b.通过(< p>,l)来表示不同活性的CPPs与NonCPPs,发现pK值与长度可以对不同活性的CPPs进行区分,结果表明CPPs的带电水平与结构会影响它们的穿膜活 性(螺旋与卷曲).c.受到质点力学中质心概念的启发,我们将其引入到了生物序列的分析之中,并将其应用到不同活性CPPs与NonCPPs的序列分 析中.
本研究分析了影响CPPs穿膜活性的因素,以及CPPs序列上的差异,这对于CPPs的设计与预测具有一定的意义.在下一步的工作中我们将结合CPPs与NonCPPs,以及不同活性的CPPs的差异对其进行预测分析,并搭建在线的预台.
免责声明:本文为行业交流学习,版权归原作者所有,如有侵权,可删除
回复此楼

» 猜你喜欢

» 本主题相关商家推荐: (我也要在这里推广)

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

专注多肽(金币+1): 谢谢参与
5楼2023-08-19 08:44:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 5 个回答
提示: 如果您在30分钟内回复过其他散金贴,则可能无法领取此贴金币
普通表情 高级回复(可上传附件)
信息提示
请填处理意见