24小时热门版块排行榜    

CyRhmU.jpeg
查看: 12749  |  回复: 87
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫

[交流] 生物信息学专题-生物版,医学版和信息科学版共同创建已有2人参与

为进一步建好小木虫的专业学科版,现由生物版、医学版和信息科学版共同创建生物信息学专题,欢迎大家积极参与!
引用回帖:

友情链接:生物版硕博研究生入学考试专题!重金悬赏!更新中......
http://muchong.com/bbs/viewthread.php?tid=95236&fpage=2

[ Last edited by fishery on 2005-6-16 at 21:05 ]
回复此楼

» 本帖已获得的红花(最新10朵)

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

miRNA

至尊木虫 (职业作家)

水王之王(愚愚学园管理员)

细胞器数据库:

主要是线粒体和叶绿体基因的数据。

★ MitoNuc
http://megasun.bch.umontreal.ca/gobase/' target="_blank" >http://megasun.bch.umontreal.ca/gobase/

★ MitBASE,线粒体DNA数据库,集成所有已知线粒体基因信息。
http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl/

★ 人类线粒体数据库。
http://bio-www.ba.cnr.it8000/Tutorials/MitBASE/

★ MitBASE Pilot,酵母线粒体中核基因数据库。
http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl/

★ 植物和藻类线粒体数据库。
http://www3.biologie.uni-ulm.de/ ... e/plant_mt_gene.gif
http://tomic.ebi.ac.uk:8889/mitb ... .pla_show_qry_opts/

★ 原生生物线粒体数据库。
http://bio-www.ba.cnr.it:8000/Tu ... /protist_table.html

★ 脊椎动物线粒体数据库。
http://bio-www.ba.cnr.it:8000/Tutorials/MitBASE/vertebrate.html



拟南芥基因组:

★ MATDB,国际拟南芥基因组计划的数据汇总。
http://www.mips.biochem.mrg.de/desc/thal/

★ AtDB,拟南芥基因组数据库。
http://genome-www.stanford.edu/Arabidopsis/
ftp://genome-ftp.stanford.edu(/pub/arabidopsis)

★ DatA,拟南芥基因组注释库。
http://luggagefast.Stanford.edu/group/arabprotein/

★ TAIR,拟南芥信息资源。
http://www.arabidopsis.org/

★ AGR,拟南芥基因组资源。
http://synteny.nott.ac.uk/agr/agr.html

★ TIGR-AT,TIGR研究所的似南芥EST和基因序列数据库。
http://www.tigr.org/tdb/at/at.html



病毒数据库:

★ICTVdB,病毒数据库。
http://life.anu.edu.au/viruses/ICTVdB/ictvdb.html

★VIDEdB,病毒鉴定交换数据库。
http://biology.anu.edu.au/research-groups/MES/vide/

★RDV,水稻矮缩病毒基因组数据库。
http://www.cbi.pku.edu.cn/rdv/




蛋白质序列数据库:

★SWISS-PROT是对数据人工审读很严格的库。
http://www.expasy.ch/sprot/
★TrEMBL是从EMBL库中的核酸序列翻译出来的氨基酸序列,已经完成了自动注释。
http://www.ebi.ac.uk:5000
★PIR是蛋白质信息资源的缩写。
http://www-nbrf.georgetown.edu/pir/
http://www.mips.biochem.mpg.de/proj/protseqdb/
★GenBank是由GenBank中的DNA序列翻译得到的蛋白质序列,与TrEMBL相似、但没有像后者那样经专家审读。
http://www.infobiogen.fr/srs/
★PROSITE,由专家根据生物知识审编的SWISS-PROT蛋白质序列中有生物意义的位点、模式和轮廓的数据库。
http://www.expasy.ch/prosite/
★PrositeScan服务器,根据用户填表提交的蛋白质序列搜索PROSITE模式。
http://www.isrec.isb-sib.ch/software/PSTSCAN_form.html
★PSD,蛋白质序列数据库,是PIR的主体。
http://pir.georgetown.edu/pirwww/dbinfo/texpsd.html
★PATCHX,PIR的子库之一,收入尚未纳入PIR库的蛋白质序列。
http://pir.georgetown.edu/pirwww/dbinfo/patchx.html
★ARCHIVE,PIR的子库之一,保存PIR库中条目的原始文献或最初提交的序列。
http://pir.georgetown.edu/pirwww/dbinfo/achive.html
★ProClass,蛋白质类数据库,是根据PROSITE库和PIR库中超家族的关系组织起来的非冗余蛋白质库。
http://pir.georgetown.edu/gsfserver/prolclass.html  
http://diana.uthct.edu/proclass.html
★PIR-ASDB,PIR的注释和相似性数据库。
http://www-nbrf.georgetown.edu/por/
★KIND,瑞典斯德哥尔摩生物信息中心维护的非冗余蛋白质序列库。
ftp://ftp.mbb.ki.se(/pub/KIND)
★ENZYME,基于命名系统的酶数据库。
http://www.expasy.ch/enzyme/
★BRENDA,这是一个内容广泛的酶的信息库。
http://www.brenda.uni-koeln.de/
★OWL,蛋白质序列库,是由SWISS-PROT,PIR,GenBank翻译序列和PDB等数据库产生的非冗余的蛋白质序列库。
http://bmbsgi11.leeds.ac.uk/bmb5dp/owl.html
★GeneCards,由以色列魏茨曼科学研究所维护的关于基因及其产物,以及它们的生物医学应用的文献库。
http://bioinfo.weizmann.ac.il/cards
★SWISS-2DPAGE,由二维聚丙烯酰胺凝胶电泳所确定的蛋白质的参考图谱数据库,包括文本和图象信息,通向其他2D-PAGE数据库的链接等。
http://www.expasy.ch/ch2d/
★HDB,组蛋白数据库,包括联配好的组蛋白序列以及已确认包含有组蛋白折叠模体的非蛋白序列,以及所有已知组蛋白和组蛋白质折叠的结构,同时指出不同数据库中类似序列的差异。
http://genome.nhgri.nih.gov/histones/
★HOBACGEN数据库,包含按家族组织的所有细菌的蛋白质序列,有助于从各种细菌选取同源家族,作多序列联配和构建亲缘树。
http://pbil.univ-lyon1.fr/databases/hobacgen.html
★MITOP,线粒体蛋白质组数据库,包括线粒体有关的基因、蛋白质和疾病信息。
http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl/
★MITOMAP,人类线粒体基因组数据库。
http://www.gen.emory.edu/mitomap.html
★REBASE,限制性内切酶和甲基化酶数据库。
http://www.neb.com/rebase
★ProtoMap,蛋白质分类数据库。
http://www.protomap.cs.huji.ac.il/
★ISSD蛋白质序列数据库。
http://www.protein.bio.msu.su/issd/
★PRF,日本蛋白质研究基金会维护着三个蛋白质和多肽数据库:PRF/LITDB文献库、PRF/SEQDB序列库及PRF/SYNDB合成产物库。
http://prfsun2.prf.or.jp/

★MEROPS,肽酶数据库。
http://www.bi.bbsrc.ac.uk/Merops/Merops.html  
★PKR,蛋白激酶信息库。
http://www.sdsc.edu/Kinases/pkr/pkk_catalytic/pk_cat_list.html  
★Wnt基因网页。
http://vonbaer.ana.ed.ac.uk/rnusse/wntwindow.html  
★PhosphoBase,磷酸化位点数据库。
http://www.cbs.dtu.dk/databases/PhosphoBase/
★SYSTERS,蛋白质集团数据库。
http://www.dkfz-heidelberg.de/tbi/services/cluster/
★DIP蛋白质相互作用数据库
http://URLdip.doe-mbi.ucla.edu/
★DexH/D数据库。
http://www.columbia.edu/~ej67/dbhome.htm
★ Homeodomain,同源异形结构域数据库。
http://genome.nhgri.gov/homeodomain/
★InBase,新英格兰生物实验公司的蛋白质剪接数据库。
http://www.neb.com/neb/inteins.html
★LGICdb,配体门控离子通道数据库。
http://www.pasteur.fr/recherche/banques/LGIC/LGIC.html
★SENTRA,信号传递蛋白质数据库。
http://wit.mcs.anl.gov/WIT2/Sentra/
★ICN,离子通道网络,是由美国神经科学数据库中心等单位联合建立的一个内容丰富的网页。
http://pain.med.umn.edu/csn/
★Aaindex,氨基酸索引数据库。
http://www.genome.ad.jp/aaindex/




蛋白质结构和分类数据库:

★ PDB,蛋白质结构数据库。
http://www.rcsb.org/pdb/
★ RCSB,结构生物信息学信息学合作研究组织。
http://www.rcsb.org/
★PDBNEW,下一版PDB库正式发布前收到的全新或更新条目。
http://www.pdb.bnl.gov/
★ PDBFinder,在PDB、DSSP、HSSP、基础上建立的二级库,包含PDB序列、作者、R因子、分辨率、二级结构等。
http://www.sander.embl-heidelberg.de/pdbfinder/
ftp://swift/embl-heidelberg.de(/pdbfinder)  
★ PDB at a Glance清单。
http://cmm.info.nih.gov/modeling/pdb_at_a_glance.html
★ PDBselect数据库。
http://swift.embl-heidelberg.de/pdbsel/
★ PDBsum是PDB库中数据的更便于阅读的总结和分析,以及一些衍生数据。
http://www.biochem.ucl.ac.uk/bsm/pdbsum/index.html
★ BioMagResBank简称BMRB,是关于多肽、蛋白质和核酸的核磁共振数据库。
http://www.bmrb.wisc.edu/
★ CSD,剑桥结构数据库。
http://www.ccdc.cam.ac.uk/prods/csd.html
★ NRL-3D,三维结构已经确定的蛋白质序列库。
http://www.gdb.org/Dan/proteins/nr13d.html
★ FAMBASE,,是每个蛋白质家族的代表序列的集合,它有助于加速同源性搜索。
http://pir.georgetown.edu/pirwww/dbinfo/fambase.html
★ ProtFam,蛋白质超家族的序列联配数据库。
http://www.mips.biochem.mpg.de/proj/protfam/protfam/
★ SCOP,蛋白质结构分类数据库。
http://www.ipc.pku.edu.cn/scop/
★ CATH,蛋白质结构与功能关系分类数据库。
http://www.biochem.ucl.ac.uk/bsm/cath/
★ PIR-ALN,蛋白质序列联配数据库。
http://www-nbrf.georgetown.edu/pir/alndb.html
★ 3Dee,蛋白质结构域定义的数据库。
http://circinus.ebi.ac.uk:8080/3Dee/
★ ProTherm,蛋白质及其变异体热力学数据库。
http://www.rtc.riken.go.jp/protherm.html
★ ASTRAL是基于SCOP数据库的一组分析蛋白质结构和蛋白质序列的数据库和工具。
http://astral.stanford.edu/
★ RESID,蛋白质翻译后修饰情况的数据库。
http://pir.georgetown.edu/pirwww/search/textresid.html
★ SMART是简单模块构架搜索工具的缩写。
http://SMART.embl-heidelberg.de/
★ PROMISE数据库。
http://bmbsgi11.leeds.ac.uk/bmbknd/promise/MAIN.html
★ MMDB蛋白质分子模型数据库。
http://www.ncbi.nlm.nih.gov/Structure/
★ VAST矢量联配搜索工具。
http://swift.embl-heidelberg.de/dssp/
★ DSSP,PDB库中所有蛋白质条目的二级结构归属数据库。
http://swift.embl-heidelberg.de/dssp/
★ HSSP,按同源性导出的蛋白质二级结构数据库。
http://www.sander.embl-heidelberg.de/hssp/
★ Dali/FSSP,基于PDB数据库中现有蛋白质三维结构,用自动结构对比程序Dali逐一比较而形成的折叠单元和家族分类库。
http://www.embl-ebi.ac.ul/dali/
http://croma.ebi.ac.uk/dali/fssp/
★ 3d_ali数据库,搜集彼此相关的蛋白质序列和结构数据。
http://www.embl-heidelberg.de/argos/ali/ali.html
★ DEF蛋白质折叠类的预测数据库。
http://zeus.cs.uoi.gr/neural/biocomputing/def.html
★ INFOGENE,Sanger中心计算基因组学小组维护的、各基因组测序计划所提供的序列中已知的蛋白质和预测出的基因与蛋白质的数据库。
http://genomic.sanger.ac.uk/inf/infodb.html
★ TMBase,跨膜蛋白数据库。
ftp://ulrec3.unil.ch(/pub/tmbase)
★ PRESAGE是关于结构基因组学的一个数据库,它为库中每个蛋白质搜集了反映当前实验状况、结构、模型和研究建议的注释。
http://presage.stanford.edu/
★ SBASE,带有注释的蛋白质序列片、即蛋白质结构域的数据库,由ICGEB建立和维护。
http://www.icgeb.trieste.it/sbase/
★ InterPro,集成的蛋白质结构域和功能位点数据库。
http://www.ebi.ac.uk/interpro/  
★ HITS,瑞士新近建立的一个蛋白质结构域数据库。
http://www.isrec.isb-sib.ch/cgi-bin/hits/hits_index
★ BLOCKS,蛋白质分类与同源性数据库,包含蛋白质家族中保守区域的组块多序列联配的数据。
http://www.blocks.fhcrc.org/
★ BLOCKS+数据库。
http://www.blocks.fhcrc.org/
★ PFAM高质量的蛋白质结构域家族数据库。
http://www.sanger.ac.uk/Sorfware/Wise2/
★ PRINTS数据库最近改名为PRINTS-S,这是一个蛋白质家族的指纹和模体数据库。
http://www.bioinfo.man.ac.uk/dbbrowser/PRINTS/
★ ProDom自动产生的蛋白质结构域家族数据库。
http://www.toulouse.inra.fr/prodom.html
★ DOMO,蛋白质结构域数据库。
http://www.infobiogen.fr/services/domo/
★ GRBase,这是参与基因调控的蛋白质的数据库。
http://www.access.digex.net/~regulate/
★ PMD,蛋白质突变体数据库。
http://pmd.ddbj.nig.ac.jp/
★ GLYCBASE,蛋白质糖基化位点数据库。
http://www.cbs.dtu.dk/databases/OGLYCBASE/
★ ORDB嗅觉受体蛋白质序列数据库。
http://ycmi.med.yale.edu/senselab/ordb/  
★ CarbBank亦称CCSD,复杂碳水化合物结构数据库,通常与蛋白质结构数据库归在一起。
http://www.ccrc.uga.edu
★ SWISS-3DIMAGE,蛋白质三维图象和PDB浏览器。
http://www.expasy.ch/sw3d/
★ IMB,大分子三维图象库。
http://www.imb-jena.de/IMAGE.html  
★ BioImage,多维生物学数据库。
http://www-embl.bioimage.org/
★ MolMovDB,耶鲁大学的生物信息学研究室维护的分子运动数据库。
http://bioinfo.mbb.yale.edu/MolMovDB/
★ ModBase,蛋白质结构模型比较数据库。
http://pipe.ruckefeller.edu/modbase/



比较基因组学和蛋白质组学数据库:

★COG直系同源聚类数据库。
http://www.ncbi.nlm.nih.gov/COG/

★GeneCensus,耶鲁大学生物信息学研究室维护的各物种基因组的比较数据库,着重于折叠单元的结构对比。
http://ncbi.nlm.nih.gov/XREFdb/

★XREFdb,哺乳动物和模式生物的基因和遗传学交叉引用数据库。
http://ncbi.nlm.nih.gov/XREFdb/

★YPD,酿酒酵母蛋白质组数据库。
http://www.proteome.com/YPDhome.html

★WormPD,线虫蛋白质组学数据库。
http://www.proteome.com/YPDhome.html



基因表达数据库:

★Flyview,果蝇基因表达数据库。
http://flyview.uni-muenster.de/
★Flybrain,果蝇神经系统图谱和数据库。
http://flybrain.uni-freiburg.de/
★NEXTDB,线虫基因表达模式数据库。
http://watsom.genes.nig.ac.jp:8080/db/
★MAGEST数据库,其名字来自Maboya Gene Expression patters and Sequence Tags 短语的缩写。
http://star.scl.kyoto-u.ac.jp/magest/
★BodyMap,人类和家鼠基因表达数据库。
http://bodymap.ims.u-tokyo.ac.jp/  
★Axeldb,非洲爪蟾基因表达数据库。
http://www.dkfz-heidelberg.de/abt0135/axeldb.html
★XMMR,非洲爪分子标记资源。
http://vize222.zo.utexas.edu/
★TRIPLES,酵母基因功能数据库,设在耶鲁大学医学院的基因组分析中心。
http://ygac.med.yale.edu/triples/
★MGEIR,集成的家鼠基因表达信息资源。
http://genex.hgu.mrc.ac.uk/
★GXD,家鼠基因表达数据库。
http://www.informatics.jax.org/searches/gxdindex_form.html
★EpoDB,脊椎动物红细胞生成基因表达分析数据库。
http://cbil.humgen.upenn.edu/epodb/
★KidneyDB,肾脏发育数据库。
http://www.ana.ed.ac.uk/anatomy/kidbase/kidhome.html
★ToothExp,牙齿基因表达数据库。
http://honeybee.helsinki.fi/toothexp/toothexp.html
〖愚愚学园〗http://www.scifans.net免费代理|免费期刊|ezproxy|文献检索|学术资源|免费资源
15楼2005-06-07 22:09:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 88 个回答

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫


miRNA(金币+1):谢谢!!
不错的高通量表达谱分析讲座(转自dxy)
2楼2005-06-07 16:23:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
miRNA(金币+2):谢谢!!
liubird(金币+50):支持斑竹开展有意义的活动!
概述

当前人类基因组研究已进入一个重要时期,2004年已获得人类基因组的全部序列,这是基因组研究的转折点和关键时刻,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段。到1999年12月15日发布的第115版为止,GenBank中的DNA碱基数目已达46亿5千万,DNA序列数目达到535万;其中EST序列超过339万条; UniGene的数目已达到7万个;已有25个模式生物的完整基因组被测序完成,另外的70个模式生物基因组正在测序当中;到2005年初为止,人类基因组的序列完成测定;同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。

生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。

近来的研究表明,基因组不仅是基因的简单排列,它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构,解译生命的遗传语言的关键。

目前在数据库中已经有越来越多的模式生物全基因组序列,第一个人类染色体全序列--第22号染色体的测序工作已经在1999年12月完成,整个人类基因组计划工作草图将在最近完成。这无疑给基因组组织结构和信息结构的研究工作提供了大量的第一手材料,同时也为基因组研究取得突破性进展提供了可能。人类对基因的认识,将从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系。

从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面:

生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。
基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际EST 数据库 (dbEST) 和各自实验室测定的相应数据,经过大规模 并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。
功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。
生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。
生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索DNA序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。
应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。
利用生物信息学方法进行结构功能预测要注意的是同一问题采用不同算法,可能产生相同或不同的结果。因此,必要弄清楚某种方法的基本原理,而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适,而对另一个则完全不对。因此,本章采用原理和实用方法并重的原则进行介绍。因生物信息学覆盖面广,限于篇幅,本章并未将生物信息学的全部内容详细加以讲述,仅针对与目前分子生物学实验数据分析密切相关的生物信息学策略及实用工具进行扼要介绍,文中涉及问题的更详细信息可参考相关网站。

[ Last edited by BlueGuy on 2005-6-7 at 16:47 ]
3楼2005-06-07 16:44:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

BlueGuy

荣誉版主 (正式写手)

懒懒的小虫虫

★ ★
miRNA(金币+1):谢谢!!
zhlpower(金币+1):继续加油
2 生物信息数据库与查询

近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。

一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。

下面将顺序简要介绍一些著名和有特色的生物信息数据库。

2.1 基因和基因组数据库

1. Genbank

Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。到1999年8月,Genbank中收集的序列数量达到460万条,34亿个碱基,而且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。

Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。

(1)Genbank数据检索

NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。

Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。

(2)向Genbank提交序列数据

测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。

BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用说明可详见其网页。

NCBI的网址是:http://www.ncbi.nlm.nih.gov

Entrez的网址是:http://www.ncbi.nlm.nih.gov/entrez/

BankIt的网址是:http://www.ncbi.nlm.nih.gov/BankIt

Sequin的相关网址是:http://www.ncbi.nlm.nih.gov/Sequin/

2. EMBL核酸序列数据库

EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具,也可以用Sequin软件来完成。

数据库网址是:http://www.ebi.ac.uk/embl/

SRS的网址是:http://srs.ebi.ac.uk/

WEBIN的网址是:http://www.ebi.ac.uk/embl/Submission/webin.html

3. DDBJ数据库

日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库提交序列。

DDBJ的网址是:http://www.ddbj.nig.ac.jp/

4. GDB

基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。

GDB的网址是:http://www.gdb.org

GDB的国内镜像是:http://gdb.pku.edu.cn/gdb/

2.2 蛋白质数据库

1. PIR和PSD

PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。

PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。

PIR和PSD的网址是:http://pir.georgetown.edu/

数据库下载地址是:ftp://nbrfa.georgetown.edu/pir/

2. SWISS-PROT

SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。

SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。

SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/

3. PROSITE

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。

PROSITE的网址是:http://www.expasy.ch/prosite/

4. PDB

蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。

RCSB的PDB数据库网址是:http://www.rcsb.org/pdb/

5. SCOP

蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。

SCOP的网址是:http://scop.mrc-lmb.cam.ac.uk/scop/

6. COG

蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。

COG库的网址是:http://www.ncbi.nlm.nih.gov/COG

下载COG库和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG

2.3 功能数据库

1. KEGG

京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。

KEGG的网址是:。

2. DIP

相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质-蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。

DIP的网址是:http://dip.doe-mbi.ucla.edu/

3. ASDB

可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于SWISS-PROT蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。ASDB(核酸)部分来自Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。

ASDB的网址是:http://cbcg.nersc.gov/asdb

4. TRRD

转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD包括五个相关的数据表:TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。

TRRD的网址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/

5. TRANSFAC

TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。此外,还有几个与TRANSFAC密切相关的扩展库:PATHODB库收集了可能导致病态的突变的转录因子和结合位点;S/MART DB收集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费下载,也可以通过Web进行检索和查询。

TRANSFAC的网址是:http://transfac.gbf.de/TRANSFAC/

2.4 其它数据库资源

1. DBCat

DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类。包括DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检索查询。

DBCat的网址是:http://www.infobiogen.fr/services/dbcat/

下载DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat

2. PubMed

PubMed是NCBI维护的文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。

PubMed的网址是:http://www.ncbi.nlm.nih.gov/

除了以上提及的数据之外,还有许许多多的专门生物信息数据库,涉及了目前生物学研究的各个层面和领域,由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库,如欧洲分子生物学网络组织EMBNet中国节点北京大学分子生物信息镜像系统,上海博容基因公司与上海嘉瑞软件公司合作开发的国产汉化基因数据库及分析管理系统,同时国家级的生物信息学中心也在筹建之中。我们期待国内能有更多高质量和使用便利的数据库资源,推动我国生物信息学和整个生命科学的发展。

清华大学生物信息学研究所网址:http://bioinfo.tsinghua.edu.cn

北京大学生物信息镜像系统网址:http://cbi.pku.edu.cn
4楼2005-06-07 16:46:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复(可上传附件)
信息提示
请填处理意见