24小时热门版块排行榜    

查看: 2424  |  回复: 12

cnlics

木虫 (小有名气)

[交流] 【原创】利用网络资源进行序列数据分析一条龙方法 已有11人参与

名字是刚刚起的,内容是以前本人在公司为一群客户做生物信息学分析培训,上机实习的内容。时间离现在已经9年了,这些东西对于大家应该是很容易的,想当年可不是这样,记得那时还很费劲地向客户讲解如何使用局域网。现在不再做相关工作了,贴出来作为纪念:

理论的目的是指导实践,现在我们利用一些免费的公共资源进行分析工作,这个练习的目的是熟悉如何通过网络服务器识别一个未知序列中的真核基因。我们将会用到密码识别程序以及promoter,splice和多聚A尾识别程序。这些信息综合在一起,使我们能找到基因编码区。理论会在识别方法之后被介绍。
任何看过自动注释的基因组序列数据的人都知道,在高等真核生物中,基因自动识别效果不佳。

Gene Discovery——The guide:
Step 1: 获得感兴趣的基因
如果已经有一条序列,可以直接到step 2。得到目标基因(your sequence of interest, YSI)后,用"Save As"保存到文件。
        搜索美国的公共文献(Medline)数据库PubMed,寻找感兴趣的题目。
        搜索美国的 Genbank 寻找感兴趣的基因。
        使用德国MIPS的Atlas 搜索蛋白质和核酸数据库。
        使用EMBL (Germany) SRS5 搜索多种序列和结构数据库;
Step 2.识别ORFs 并翻译为蛋白质
•        使用Baylor College of Medicine (US)的Gene feature 进行搜索;
•        使用University of Pennsylvania (US)的GenLang 进行搜索;
•        使用ExPaSy (Switzerland) tool 将DNA序列翻译为蛋白质。
Step 3.发现数据库中的相似序列。
•        核酸序列:使用 NCBI (US)的 Blast 搜索选择的数据库,用选项blastx输入ORF的核酸序列;
•        蛋白质序列:使用Baylor College of Medicine (US)的 Blast 搜索选择的数据库,输入ORF翻译后的氨基酸序列;
•        蛋白质序列:使用Weizmann Institute (Israel)的 The BIOCCELERATOR搜索选择的数据库,输入ORF翻译后的氨基酸序列。
Step 4. 将序列和相似序列做比对
尽管前面的Blast搜索已经提供了局部的比对(相似区域的比对),全局比对(所有区域的比对)有助于对目标序列的更好理解(例如和参考序列直接比较功能区域的“有”或“无”) 。使用EERIE, France Alignment 进行两条序列的比对;
•        使用Baylor College of Medicine (US) Alignment进行两条序列的比对。
Step 5.寻找基因家族
•        可以在Baylor College of Medicine (US)的 Alignment查询多个序列
•        可以在Oxford University (UK)的AMAS 分析多个序列的比对
•        可以在ISREC (Switzerland)的BOXSHADE 观看比对去的具体情况
Step 6. 寻找蛋白质中的特异模式
•        使用ISREC (Switzerland) ProfileScan 进行搜索;
•        使用Fred Hutchinson Cancer Research Center (US) Blocks进行搜索;
•        使用GenomeNet (Japan) Motif 进行搜索;
•        使用Argonne National Laboratories (US) PatScan 搜索规定的模式;
•        使用Institute for Molecular and Cellular Biology, Osaka University (Japan) Psort 预测蛋白质的分类信号;
•        使用ISREC (Switzerland) SAPS 对蛋白质序列进行统计分析。
Step 7. 预测蛋白质的结构
•        使用EMBL (Germany) PredictProtein 预测蛋白质的二级结构;
•        使用University of California in San Francisco (US)NNPREDICT预测蛋白质的二级结构;
•        使用Baylor College of Medicine (US) ppsp预测蛋白质的二级结构;
•        使用ISREC (Switzerland) Coils寻找coil-coil 区域;
Step 8.查找相关蛋白质的功能信息
为了解目标蛋白质的功能,收集有相似结构或序列元件的蛋白质的信息很有价值。因此通过PubMed 用蛋白质作为关键词进行检索,也许能够提供蛋白质的功能信息。
Step 9.将序列放进一个 "alert" 服务器
当有与你的序列相似的序列进入数据库时,"Alert"服务器会给你发送 消息。可以选择下列服务器:
•        EMBL (Germany)的Sequence Alerting ;
•        MIPS (Germany)的MIPS alert ;
•        ExPaSy (Switzerland)的Swiss-Shop 。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

scelab

荣誉版主 (文坛精英)

小木虫之有关部门负责人


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by cnlics at 2010-09-13 21:47:24:
名字是刚刚起的,内容是以前本人在公司为一群客户做生物信息学分析培训,上机实习的内容。时间离现在已经9年了,这些东西对于大家应该是很容易的,想当年可不是这样,记得那时还很费劲地向客户讲解如何使用局域网 ...

谢谢!
小木虫之有关部门负责人
2楼2010-09-13 22:40:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

三磷酸腺苷

铁杆木虫 (职业作家)


小木虫(金币+0.5):给个红包,谢谢回帖交流
scelab:咋弄?我没弄过啊,等其他斑斑吧 2010-09-13 23:37:42
这帖版主应该整理进资源汇总帖啊~~~
3楼2010-09-13 23:21:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cnlics

木虫 (小有名气)

引用回帖:
Originally posted by 三磷酸腺苷 at 2010-09-13 23:21:53:
这帖版主应该整理进资源汇总帖啊~~~

谢谢这么给面子,这是纯粹灌水贴,我收集了一些生物信息学方法,都是过去积累下来的,有机会我会逐渐贴出来的,为的是纪念而已。
4楼2010-09-13 23:58:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jinhx87

至尊木虫 (知名作家)

5楼2010-09-14 07:18:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cnlics

木虫 (小有名气)

贴的内容应该说已经过时了,就纯粹的信息分析来说,所谓的语义分析方法有非常大的进步,出现了很多分析软件,使得专利分析变得比较便捷。
6楼2010-09-14 11:00:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jfly2008

木虫 (小有名气)

jfly2008


小木虫(金币+0.5):给个红包,谢谢回帖交流
谢谢了。。
实干致富
7楼2010-09-14 11:00:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

liygmail

至尊木虫 (职业作家)


小木虫(金币+0.5):给个红包,谢谢回帖交流
谢谢了
8楼2010-09-14 11:26:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dingxianlo

金虫 (正式写手)

谢谢了
未来掌握在自己手中,希望通过这个网站认识更多的朋友,能在学习、工作、生活上相互帮忙。爱拼才会赢!
9楼2010-09-14 19:01:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cory0931

至尊木虫 (文坛精英)

巫山云

lz不错;
锤之千古
10楼2013-04-06 12:10:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 cnlics 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见