24小时热门版块排行榜    

查看: 5685  |  回复: 25
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

交大狂人

至尊木虫 (文坛精英)

[交流] 〖蛋白质结构预测专题讨论贴〗已有12人参与

〖蛋白质结构预测专题讨论贴〗


蛋白质结构预测是目前研究比较热的一个技术方法,涉及到很多生物信息方面的资源的组合利用,相信大家也和我一样,比较感兴趣,在这我就把一些比较好的资源拿出来Share,大家探讨探讨,由此专题可以涉及到同源性分析,BLAST,序列比对,二级结构预测、三级结构预测、同源模建、穿线法预测、从头预测,三维结构优化和蛋白质工程、点突变很多相关内容,所以一个成功的预测是以上诸多内容最优的组合,欢迎大家参与,共同学习!
推荐一些相关的书籍

【01】《蛋白质的结构预测与分子设计》[来鲁华]
经典!国内可能是最早做这方面研究的专题论著,已上传!
【02】《生物信息学方法与实践》[张成岗]
总的来说还不错,就是排版上出了小问题但不影响阅读,我是借阅的。
【03】《蛋白质工程》[王培之]
可能是国内出的第一本专著吧!我最早看到的有需要就上传!
【04】《蛋白质工程》[王大成]
2002年出的点突变方面的书籍。
【05】《PCR Mutagenesis》
PCR突变的专著没见过中文版的不然一定要买一本,有需要就上传!
【05】《In.Vitro.Mutagenesis.Protocols》体外诱导突变实验手册
体外突变方面的论文合集,有需要就上传!
【06】《生物大分子的结构和功能》[陈惠黎]
有一些内容可以参考一下。
【07】《蛋白质分子结构》[阎隆飞 孙之荣]
这本清华大学出的,我觉得挺使用。
【08】《结构分子生物学》[刘次全]
结构方面的书籍还行真在看。
【09】《Bioinformatics-Sequence and Genome Analysis》
Cold Spring Harbor Laboratory Press冷泉港出的很经典。
【10】《Sequence Analysis in a Nutshell》
可以参考参考!
【11】《Bioinformatics:Sequence and Genome Analysis》
感兴趣可以了解一下!已上传!
【12】《蛋白质组学》[钱小红]
我正在读,唉!好书太多了!
推荐一些相关的书籍

推荐一些相关的软件

【01】蛋白质序列分析软件/见本贴
【02】蛋白质空间构象同源模建软件/见本贴
【03】蛋白质二级结构预测分析软件/见本贴
回复此楼

» 收录本帖的淘贴专辑推荐

专业电子书 蛋白质生物学实验经验 生物化学和分子生物学 生命书籍
MDs-Gromacs 蛋白模拟与改造 交叉知识 我的
我喜欢的资料 生物专业科研

» 本帖已获得的红花(最新10朵)

» 猜你喜欢

» 本主题相关商家推荐: (我也要在这里推广)

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cpucf

铁杆木虫 (知名作家)

相由心生,境随心转

1

关注狂人,虽然我已经不搞这个了!
相由心生,境随心转!存好心,说好话,行好事,做好人!
4楼2006-05-26 21:20:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 26 个回答

交大狂人

至尊木虫 (文坛精英)

推荐一些相关的论文

主要是一些结构预测的综述,有利于了解一些基本知识!
【01】蛋白质的结构预测和分子设计/已上传!
【02】蛋白质结构预测的现状与展望/已上传!
【03】蛋白质结构预测的优化模型与方法/已上传!
【04】蛋白质结构预测方法简述/已上传!
【05】低同源性蛋白质结构预测/已上传!
【06】蛋白质二级结构预测的综合分析
【07】基于PC/linux蛋白序列分析系统的构建及应用
【08】氨基酸主成分分析法及在蛋白质结构预测中的应用
【09】生物信息学——揭示生物分子数据的内涵
【10】基于联合残基力场的蛋白质结构预测的研究进展
【11】基于网络服务的蛋白质二级结构预测软件
【12】用于真实蛋白质结构预测的一种新的优化方法
【13】酵母PHO81蛋白的结构预测和功能分析
【14】hHO-1结构预测及突变体的构建、表达、纯化和活性检测
【15】人分化抗原5C5蛋白分子的三维结构预测
【16】杀菌肽及膜蛋白螺旋结构预测
【17】旋毛虫新生幼虫期特异性基因丝氨酸蛋白酶的结构预测与功能分析
【18】膜蛋白跨膜区预测方法的评价
【19】FD耐热逆转录酶的同源模建及结构同源分析
【20】Furin/kexin蛋白质前体加工酶抑制剂的理性再设计
【21】HCV高变区合成多肽的抗原性研究
【22】TLR4胞内区的同源模建
【23】t—PA K1区的同源模建及Kringle区与Lysine相互作用的研究
【24】α2A-肾上腺素受体的同源模建及与Yohimbine的对接研究
【25】丙型肝炎高变区多肽的同源建模与抗原性研究
【26】基于结构比较的蛋白质模建系统及其评估
【27】基于结构比较的蛋白质同源模建系统及其评估:II侧链的安装
【28】江浙蝮蛇毒磷脂酶A2的结构模建与分析
【29】枯草杆菌色氨酰tRNA合成酶的同源模建
【30】耐热碱性磷酸酯酶(FD—TAP)的三维结构分析
【31】嵌合抗CD20抗体Fab‘片段三维结构的同源模建
【32】人白介素15及突变体的分子设计
【33】人类CCR2的同源模建和分子动力学模拟
【34】人肽抗生素hPAB—β分子的同源模建及其突变体设计
【35】融合蛋白ICOSIg的三维结构模建的研究
【36】同源模建法建立和检验人类新基因ZNF191锌指基序的三维构象
【37】细胞色素P450 2f1(CYP2f1)的三维结构模建和与维甲酸的对接研究
【38】细胞色素p450 2s1(CYP2s1)三维结构模建及其与维甲酸分子的对接研究
【39】血红蛋白突变体的稳定性预测
【40】抑制启动子的三链DNA的结构模建及稳定性研究
【41】肿瘤坏死因子与其受体相互作用的计算机模拟研究
【42】用于蛋白质同源模建及三维结构预测的结构比较方法
2楼2006-05-26 21:02:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

交大狂人

至尊木虫 (文坛精英)

核酸与蛋白质结构和功能的预测分析
人们获得各种核酸和蛋白质序列的目的是了解这个序列在生物体中充当了怎样的角色。例如,DNA序列中重复片段、编码区、启动子、内含子/外显子、转录调控因子结合位点等信息;蛋白质的分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区段、酶的活性位点、以及蛋白质之间相互作用等结构和功能信息。虽然用实验的方法是多年以来解决这类问题的主要途径,但新的思路是利用已有的对生物大分子结构和功能特性的认识,用生物信息学的方法通过计算机模拟和计算来“预测”出这些信息或提供与之相关的辅助信息。由于生物信息学的特点,可以用较低的成本和较快的时间就能获得可靠的结果。近10年来生物学序列信息的爆炸性增长大大促进了各种序列分析和预测技术的发展,目前已经可以用理论预测的方法获得大量的结构和功能信息。要注意的是,尽管各种预测方法都基于现有的生物学数据和已有的生物学知识,但在不同模型或算法基础上建立的不同分析程序有其一定的适用范围和相应的限制条件,因此最好对同一个生物学问题尽量多用几种分析程序,综合分析各种方法得到的结果和结果的可靠性。此外,生物信息学的分析只是为生物学研究提供参考,这些信息能提高研究的效率或提供研究的思路,但很多问题还需要通过实验的方法得到验证。

针对核酸序列的预测方法

针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“MM子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。

1)重复序列分析

对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。常见的重复序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用这些程序,或者用Email来进行。如果有大量序列需要处理,可以使用XBLAST程序,它可以从Internet上下载得到。XBLAST中以及包含了由程序作者收集整理的一些重复序列,此外还可以从Repbase中找到更多的重复序列。还可以把克隆载体也加入重复序列中,这样就可以在处理重复序列时顺便把克隆载体也一同除去(RepeatMasker)。经处理的序列中重复序列所在位置会一律由“X”代替。

2)数据库搜索

把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段,在上一节中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。

3)编码区统计特性分析

统计获得的经验说明,DNA中MM子的使用频率不是平均分布的,某些MM子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“MM子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双MM子计数(统计连续两个MM子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。

常见的编码区统计特性分析工具将多种统计分析技术组合起来,给出对编码区的综合判别。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服务。

4)启动子分析

启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比较严重。总的来说,启动子仍是值得继续研究探索的难题。

5)内含子/外显子剪接位点

剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。

常见的基因识别工具很多都包含了剪接位点识别功能,独立的剪接位点识别工具有NetGene等,可用Email服务。

6)翻译起始位点

对于真核生物,如果已知转录起始点,并且没有内含子打断5'非翻译区的话,“Kozak规则”可以在大多数情况下定位起始MM子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始MM子仍很困难。这时由于多顺反操纵子的存在,启动子定位不象在真核生物中起关键作用。对于原核生物,关键是核糖体结合点的定位,可以由多个程序提供解决方案,可以参考下面的综述。

Gelfand, M. S. (1995). Prediction of function in DNA sequence analyis. J. Comput. Biol. 2, 87-115.

7)翻译终止信号

PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。

8)其它综合基因预测工具

除了上面提到的程序之外,还有许多用于基因预测的工具,它们大多把各个方面的分析综合起来,对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性,但也有一些局限:物种适用范围的局限;对多基因或部分基因,有的预测出的基因结构不可靠;预测的精度对许多新发现基因比较低;对序列中的错误很敏感;对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。

相对不错的工具有GENSCAN,可以通过Web页面或Email获得GENSCAN服务。

9)tRNA基因识别

tRNA基因识别比编码蛋白质的基因识别简单,目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。可以在Web上使用这个工具,也可以下载这个程序。

针对蛋白质的预测方法

传统的生物学认为,蛋白质的序列决定了它的三维结构,也就决定了它的功能。由于用X光晶体衍射和NMR核磁共振技术测定蛋白质的三维结构,以及用生化方法研究蛋白质的功能效率不高,无法适应蛋白质序列数量飞速增长的需要,因此近几十年来许多科学家致力于研究用理论计算的方法预测蛋白质的三维结构和功能,经过多年努力取得了一定的成果。

1)从氨基酸组成辨识蛋白质

根据组成蛋白质的20种氨基酸的物理和化学性质可以分析电泳等实验中的未知蛋白质,也可以分析已知蛋白质的物化性质。ExPASy工具包中提供了一系列相应程序:

AACompIdent:根据氨基酸组成辨识蛋白质。这个程序需要的信息包括:氨基酸组成、蛋白质的名称(在结果中有用)、pI和Mw(如果已知)以及它们的估算误差、所属物种或物种种类或“全部(ALL)”、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号、用户的Email地址等,其中一些信息可以没有。这个程序在SWISS-PROT和(或)TrEMBL数据库中搜索组成相似蛋白。

AACompSim:与前者类似,但比较在SWISS-PROT条目之间进行。这个程序可以用于发现蛋白质之间较弱的相似关系。

除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。程序作者用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的“查询向量”与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。这个工具能有效的发现同一蛋白质家族的成员。可以通过Web使用这个工具,用户只需输入查询序列本身。

2)预测蛋白质的物理性质

从蛋白质序列出发,可以预测出蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有:

Compute pI/MW:是ExPASy工具包中的程序,计算蛋白质的等电点和分子量。对于碱性蛋白质,计算出的等电点可能不准确。

PeptideMass:是ExPASy工具包中的程序,分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。蛋白酶和化学试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。

TGREASE:是FASTA工具包中的程序,分析蛋白质序列的疏水性。这个程序延序列计算每个残基位点的移动平均疏水性,并给出疏水性-序列曲线,用这个程序可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。

SAPS:蛋白质序列统计分析,对提交的序列给出大量全面的分析数据,包括氨基酸组成统计、电荷分布分析、电荷聚集区域、高度疏水区域、跨膜区段等等。

3)蛋白质二级结构预测

二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等四个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用过人工神经网络、遗传算法等技术构建预测方法。还有将多种预测方法结合起来,获得“一致序列”。总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。

nnPredict:用神经网络方法预测二级结构,蛋白质结构类型分为全α蛋白、全β蛋白和α/β蛋白,输出结果包括“H”(螺旋)、“E”(折叠)和“-”(转角)。这个方法对全α蛋白能达到79%的准确率。

PredictProtein(国内镜像):提供了序列搜索和结构预测服务。它先在SWISS-PROT中搜索相似序列,用MaxHom算法构建多序列比对的profile,再在数据库中搜索相似的profile,然后用一套PHD程序来预测相应的结构特征,包括二级结构。返回的结果包含大量预测过程中产生的信息,还包含每个残基位点的预测可信度。这个方法的平均预测准确率达到72%。

SOPMA:带比对的自优化预测方法,将几种独立二级结构预测方法汇集成“一致预测结果”,采用的二级结构预测方法包括GOR方法、Levin同源预测方法、双重预测方法、PHD方法和SOPMA方法。多种方法的综合应用平均效果比单个方法更好。

4)其它特殊局部结构

其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(Coiled Coils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测。

COILS:卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。

TMpred:预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。

SignalP:预测蛋白质序列中信号肽的剪切位点。

5)蛋白质的三维结构

蛋白质三维结构预测时最复杂和最困难的预测技术。研究发现,序列差异较大的蛋白质序列也可能折叠成类似的三维构象,自然界里的蛋白质结构骨架的多样性远少于蛋白质序列的多样性。由于蛋白质的折叠过程仍然不十分明了,从理论上解决蛋白质折叠的问题还有待进一步的科学发展,但也有了一些有一定作用的三维结构预测方法。最常见的是“同源模建”和“Threading”方法。前者先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。后者将序列“穿”入已知的各种蛋白质的折叠子骨架内,计算出未知结构序列折叠成各种已知折叠子的可能性,由此为预测序列分配最合适的折叠子结构。除了“Threading”方法之外,用PSI-BLAST方法也可以把查询序列分配到合适的蛋白质折叠家族,实际应用中发现这个方法的效果也不错。

SWISS-MODEL:自动蛋白质同源模建服务器,有两个工作模式:第一步模式(First Approach mode)和优化模式(Optimise mode)。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。

CPHmodels:也是利用神经网络进行同源模建预测蛋白质结构的方法。

» 本帖已获得的红花(最新10朵)

3楼2006-05-26 21:03:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wang_xing11

木虫 (知名作家)

不作金币奴隶的鎠虫虫

1

生物信息学书不少,中文的<生物信息学概论>孙啸等译的,清华大学出版社的还行,36一本

[ Last edited by wang_xing11 on 2006-5-26 at 21:59 ]
5楼2006-05-26 21:30:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[基金申请] 工材口青年基金上会可能性 +5 今晚推荐22 2024-06-19 7/350 2024-06-20 01:49 by yifeng11
[基金申请] 刚刚收到科研之友邮件 +8 olivermiaoer 2024-06-19 10/500 2024-06-20 00:06 by zhanghaozhu
[找工作] 高校两个offer选择 +13 cowox2021 2024-06-18 14/700 2024-06-19 23:04 by feng6531
[基金申请] 江南大学到瑞士招聘,称取消非升即走,改预聘+长聘 +21 babu2015 2024-06-18 22/1100 2024-06-19 23:03 by feng6531
[基金申请] 青年基金会评专家到底是怎么会评的呀?主审专家是不是一般不会改动系统按函评给的顺序 5+3 他山攻玉之石 2024-06-18 14/700 2024-06-19 19:43 by liliwang215
[考博] 关于读博感觉自己很抓马 +8 小九月 2024-06-19 11/550 2024-06-19 19:22 by 鱼翔浅底1
[基金申请] 基金得中 +4 woaini0218 2024-06-18 4/200 2024-06-19 17:27 by mengzl
[基金申请] Nature 11日发文,中国著名学者们称造假迫不得已 +8 babu2015 2024-06-14 8/400 2024-06-19 15:25 by 风今25
[教师之家] 试用期辞职 +9 ZHONGWU_U 2024-06-18 14/700 2024-06-19 12:36 by ZHONGWU_U
[硕博家园] 关于硕博连读的一些疑问? +8 Lwenter 2024-06-14 10/500 2024-06-19 10:00 by qingdao001
[论文投稿] 审稿人含糊拒稿,还需要回复吗?如何回复? 20+4 BruceChum 2024-06-15 22/1100 2024-06-19 08:00 by kanyechris
[找工作] 杭电、天津科技、青农和宁波工程学院如何选? +12 味道很好啊 2024-06-13 24/1200 2024-06-18 23:09 by 药材
[高分子] 烧瓶内合成聚酯 +3 大帝国乐 2024-06-17 7/350 2024-06-18 11:10 by 大帝国乐
[基金申请] 有人中过人文社科类的博后特助吗? +3 outsider1986 2024-06-16 5/250 2024-06-18 11:10 by 袁天未然
[硕博家园] 博士毕业高校和就业的相关问题 +7 SCITOPPP 2024-06-14 11/550 2024-06-18 07:51 by yinxing1995
[基金申请] 面青地会评时间 +8 tanjydd 2024-06-15 8/400 2024-06-17 17:08 by 小龙虾2008
[论文投稿] 投稿被一个审稿人恶意评审了怎么样? +5 1chen 2024-06-14 7/350 2024-06-15 23:15 by xy66xy
[基金申请] 关于博后基金的bug问题 +6 lxr1991 2024-06-14 9/450 2024-06-15 21:17 by since—2010
[基金申请] 国自然基金公布的时候基金号有吗 +8 潇洒怡惜 2024-06-13 11/550 2024-06-14 11:24 by JRfei
[论文投稿] 投稿后发现其他作者的邮箱填错了该怎么办呀 10+4 在飞的猪 2024-06-13 6/300 2024-06-14 04:45 by 小虫子咔咔
信息提示
请填处理意见