24小时热门版块排行榜    

查看: 4341  |  回复: 1

zhouzi1986

银虫 (小有名气)

[交流] 【分享】SWISS-PROT简介 已有1人参与

SWISS-PROT 数据库是最齐全的注释精炼的蛋白序列库,建立于1986年,1987年起由日内瓦大学(University of Geneva)医学生物化学系和 EMBL 数据馆(即现在的欧洲生物信息研究所EBI)共同维护。

进入SWISS-PROT全文检索

一、SWISS-PROT蛋白质序列库的特点:

  SWISS-PROT由EMBL核苷酸序列库翻译而来,附件TrEMBL数据库含有126,995条蛋白质序列,包括34,178,645个氨基酸残基。每条蛋白质序列条目按照各种数据行的格式书写排列。该数据库的四大特点是:

1.注释精炼,条理分明:

  每个序列条目由核心数据(Core Data)和注释数据(Annotation)组成。核心数据包括序列、参考文献和序列的生物来源,而注释数据则描述了:①蛋白质的功能;②蛋白质的翻译后加工修饰,如糖基化(Carbohydration)、磷酸化(Phosphorylation)、乙酰化(Acetylation)、GPI锚定(GPI-anchor)等;③结构域( Domains)和结合位点(Binding Sites),如钙结合区(Calcium Binding Regions)、ATP结合位点(ATP-Binding Sites)、锌指结构域(Zinc Fingers)、同源盒(Homeobox)、Kringle等;④二级结构,四级结构; ⑤和其他蛋白的序列相似性(Sequence Similarity);⑥相关疾病(Associated Diseases)和序列变异( Variants)等。
  数据库中注释数据主要包含在注释数据行(Comment Lines,CC),特征数据栏(Feature Table, FT)和关键词(Keyword Lines,KW)中,大多数注释按主题(Topics)分类。

2.广泛收集文献资料,尽量避免重复查询:

  每个条目包含了尽可能多的相关文献资料信息,加以综合集中,如出现观点不一致的,则在特征表(Feature Table)中标明。

3.与其他数据库兼容并蓄,建立相互参照连接:

  SWISS-PROT与25种数据库建立相互参照联系,如蛋白质三级结构库 PDB 、人类基因孟德尔遗传数据库(MIM) 、蛋白质类型和位点库 (PROSITE) 等,可直接进入其他数据库的相关条目,这种广泛而实用的数据库网络联系赋予SWISS-PROT在数据库中的中心地位和数据聚焦功能。

4.附有索引文件及相关说明:

  SWISS-PROT配备多种索引文件和相关说明,并且不断更新。

二、SWISS-PROT数据格式

  SWISS-PROT每一个数据条目包含一个蛋白质前体形式的序列,不包括成熟蛋白中不存在的N端起始蛋氨酸,分为标准数据(Standard Data)和初级数据(Preliminary Data)两类,并附有数据尚不够完整的TrEMBL数据库。序列条目格式与EMBL数据库基本相同,由数据行排列组成,人或计算机均能读取。举例如下:

 

  SWISS-PROT 数据记录(Entry)详解:
  每条蛋白质序列条目按照各种数据行的格式书写排列。

1.ID (IDentification) 标识

  1.1 记录名 (Entry-name)X_Y X代表蛋白质名称的记忆码,至多4位;Y代表蛋白质的生物来源,至多5位,一般前3位是属名,后2位是种名。常见普通生物以自释码表明来源,如HUMAN,YEAST等,病毒例外,以临时码代替。

  如PDI_YEAST ,PDI代表Protein Disulfide Isomerase(蛋白质二硫键异构酶);YEAST代表它来源于Yeast(酵母),属于自释码。

  FER_HALHAFER代表ferredoxin铁还原蛋白;HALHA表明其生物来源为Halobacterirn halobium(海洋嗜盐菌,HAL代表嗜盐菌层Halobacterium,HA代表海洋生物Halobium)。

  1.2 数据类型 (Data class)

  分标准(Standard)数据和初级(Preliminary)数据两类。数据达不到SWISS- PROT标准的属于初级数据。

  1.3 分子类型 (Molecular type) 在SWISS-PROT数据库,分子类型均为PRT,代表蛋白质(PRoTein)。

  1.4 分子长度(Length of the molecule) ID数据行的最后一项是序列的氨基酸残基数目。

2.AC (Accession number) 蛋白质注册号

  由于数据的合并与增删,一个记录可能有几个注册号,以第一个注册号为准;但一般情况下,一个记录只有一个注册号。

3.DT (Date) 记录日期或最后一次更新的日期

  格式为DD-MMM-YEAR(REL. XX. COMMENT) 日-月-年(发行号,记录缘由)记录缘由分为创建、序列更新 和其他内容更新三种。

4.DE (DEscription) 描述 

  包含蛋白质序列的描述性信息,无固定格式。

5.GN (GeneName)基因名称

  格式为

  GN NAME1[AND/OR NAME2…]

  多个基因编码同一个蛋白时,同义名称的基因间以 OR 相隔;不同基因编码蛋白质的不同亚基时,基因之间以 AND 相隔。

6.KW (KeyWord)关键词

  可用于蛋白质功能,结构或其他范畴的蛋白质序列索引。

7.OS (Organism Species)生物种属

  表明序列的来源,通常采用拉丁种属名,括弧中继以英文名。如:

  OS  SACCHARMYCES CEREVISIAE(BAKER'S YEAST)表示: 生物来源为酵母

  OS  HOMO SAPIENS(HUMAN)表示: 生物来源为人

8.OG (OrGanelle)细胞器(细胞内小器官)

  表明基因编码蛋白的来源或定位,如细胞内的线粒体,叶绿体或质粒等。

9.OC (Organism classification)生物分类

  以树状分类的从上至下的格式列出,最普遍的类目列在最前面。

10.RN,RP,RC,RX,RA,RL 参考数据

  RN (Reference Number)    参考号
   在本记录中的参考文献的排号
  RP (Reference Position)  参考性质      
   文献作者的工作性质和范围
  RC (Reference Comment)  相关内容
   文献相关内容(可选数据行)
  RX (Reference Cross-reference)  交互参照
   用来表示题录型数据库(Bibliographic database)中的标识号,一般是MEDLINE数据库的标识号。如:

  RX  MEDLINE; 91001972 

  RA (Reference Author)  文献作者
  RL (Reference Location) 参考文献来源,包括几种:

杂志: 注明杂志缩写,卷次,页码及发表日期(年);

书:  注明书名,版次,卷次,编号,页码,出版及发表日期(年)[书名前冠以(IN)字样];

未出版物: 示“UNPUBLISHED”字样;

论文(Thesis):冠以“THESIS”标记,注明时间(年),研究所,国家;

专利(Patent):注明专利号,日期;

直接递交序列(submissions):注明递交年月及数据库。

11.DR (Database cross-Reference) 参照数据库,格式为

  DR DATA_BANK_IDENTIFIER;PRIMARY_IDENTIFIER;SECONDARY_ IDENTIFIER

  包含数据库缩写名,第一标识号(Primary Identifier),第二标识号(Secondary Identifier,为补充信息)。

12.FT (Feature Table) 特征表

  提供简洁精炼的数据注释,描述了序列的位点及作用区域。一般情况下列出翻译后修饰、结合位点、酶活性位点和局部二级结构等其他特征。每一特征数据行按关键词、残基起始序号区域及简扼的描述内容组成。

13.SQ (SeQuence header) 序列题头

  列出蛋白质的序列长度(氨基酸数目),分子量(MW),CRC32序列值
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yuanwind1983

铁虫 (小有名气)


wizardfan: 金币+1, 谢谢参与,发掘有价值的老帖 2012-11-22 05:17:22
学习学习!
人生不要虚度,爱拼才会赢。
2楼2012-11-21 17:03:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhouzi1986 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考博] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +5 2h7du0nuhk 2026-02-07 6/300 2026-02-08 08:12 by vs90ilomwc
[硕博家园] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 6/300 2026-02-08 08:07 by vs90ilomwc
[考博] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 7/350 2026-02-08 08:06 by vs90ilomwc
[找工作] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 7/350 2026-02-08 07:46 by vs90ilomwc
[公派出国] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 8/400 2026-02-08 07:32 by vs90ilomwc
[教师之家] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 8/400 2026-02-08 07:26 by vs90ilomwc
[硕博家园] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 8/400 2026-02-08 07:07 by vs90ilomwc
[硕博家园] 博士延得我,科研能力直往上蹿 +8 偏振片 2026-02-02 8/400 2026-02-08 06:52 by liyeqik
[公派出国] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +3 5lbyq5wrhb 2026-02-07 3/150 2026-02-08 03:05 by vs90ilomwc
[考博] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +3 5lbyq5wrhb 2026-02-07 3/150 2026-02-08 02:52 by vs90ilomwc
[论文投稿] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +3 3rkserf6qr 2026-02-07 4/200 2026-02-08 02:45 by vs90ilomwc
[硕博家园] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +3 3rkserf6qr 2026-02-07 3/150 2026-02-08 02:32 by vs90ilomwc
[教师之家] 有院领导为了换新车,用横向课题经费买了俩车 +7 瞬息宇宙 2026-02-04 7/350 2026-02-07 21:47 by tfang
[有机交流] 酰胺脱乙酰基 10+5 chibby 2026-02-03 12/600 2026-02-07 19:29 by 江东闲人
[基金申请] 同年申请2项不同项目,第1个项目里不写第2个项目的信息,可以吗 +4 hitsdu 2026-02-06 4/200 2026-02-07 13:07 by jurkat.1640
[基金申请] 有时候真觉得大城市人没有县城人甚至个体户幸福 +9 苏东坡二世 2026-02-04 10/500 2026-02-07 12:37 by 小毛球
[考博] 天津大学招2026.09的博士生,欢迎大家推荐交流(博导是本人) +4 a793625982 2026-02-05 5/250 2026-02-07 10:57 by a793625982
[公派出国] CSC & MSCA 博洛尼亚大学能源材料课题组博士/博士后招生|MSCA经费充足、排名优 +4 雨念 2026-02-01 6/300 2026-02-06 23:32 by MelissaPon
[基金申请] 面上项目申报 +3 Tide man 2026-02-01 3/150 2026-02-05 22:56 by god_tian
[教师之家] 遇见不省心的家人很难过 +18 otani 2026-02-03 22/1100 2026-02-04 11:06 by tangmnt
信息提示
请填处理意见