| 查看: 10033 | 回复: 17 | |||
[交流]
Hmmer search得到的结果怎么分析
|
|||
|
想从注释的蛋白组数据中筛选出一个基因家族的成员,用了blastp,还用HMM build 构建了参考的模型,然后用这个模型对蛋白组数据进行了搜索,得到的结果如下 # hmmsearch :: search profile(s) against a sequen ce database # HMMER 3.0 (March 2010); http://hmmer.org/ # Copyright (C) 2010 Howard Hughes Medical Instit ute. # Freely di stributed under the GNU General Public License (G PLv3). # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - # query HMM file: CCR.hmm # target se quence database: Smoellendorffi i_91_v1.0.p rotein.fa sta # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Q uery: clustal-ccr [M=338] S cores for complete sequences (score includes all domains): #NAME? sequence --- --- best 1 domain --- -#dom- E-value score bias E-value score bias exp N Sequence Description ------- ------ ----- ------- ------ ----- ---- -- -------- ----------- 3.10E-151 503.4 0.4 3.4e-151 503.2 0.3 1.0 1 271114 pacid=15420855 transcript=271114 locus=271114 ID=27 8.20E-122 406.6 0.1 9.1e-122 406.5 0.1 1.0 1 134883 pacid=15414495 transcript=134883 locus=134883 ID=13 4.20E-120 401.0 0.2 4.7e-120 400.9 0.2 1.0 1 85242 pacid=15418444 transcript=85242 locus=85242 I D=8524 2.30E-118 395.3 0.0 2.5e-118 395.2 0.0 1.0 1 175949 pacid=15402139 transcript=175949 locus=175949 ID=17 7.80E-108 360.7 0.0 9.3e-108 360.4 0.0 1.0 1 234633 pacid=15404604 transcript=234633 locus=234633 ID=23 9.80E-104 347.2 0.1 1.1e-103 347.1 0.1 1.0 1 227661 pacid=15406323 transcript=227661 locus=227661 ID=22 4.00E-100 335.3 0.0 4.4e-100 335.2 0.0 1.0 1 227659 pacid=15406304 transcript=227659 locus=227659 ID=22 3.60E-90 302.6 0.0 4.1e-90 302.4 0.0 1.0 1 74610 pacid=15411358 transcript=74610 locus=74610 I D=7461 1.40E-89 300.7 0.0 1.5e-89 300.6 0.0 1.0 1 135301 pacid=15413377 transcript=135301 locus=135301 ID=13 8.20E-89 298.1 0.0 9.1e-89 298.0 0.0 1.0 1 413044 pacid=15411442 transcript=413044 locus=413044 ID=41 6.80E-88 295.1 0.0 7.6e-88 295.0 0.0 1.0 1 80798 pacid=15407661 transcript=80798 locus=80798 I D=8079 7.80E-85 285.1 0.1 1.1e-83 281.2 0.1 1.9 1 172432 pacid=15411880 transcript=172432 locus=172432 ID=17 1.30E-79 267.9 0.5 2e-78 264.0 0.3 2.0 1 97473 pacid=15410827 transcript=97473 locus=97473 I D=9747 3.60E-79 266.5 0.3 7.7e-78 262.1 0.2 2.0 1 92506 pacid=15419134 transcript=92506 locus=92506 I D=9250 9.50E-79 265.1 0.2 2.1e-77 260.7 0.2 2.0 1 97205 pacid=15409059 transcript=97205 locus=97205 I D=9720 8.30E-57 192.9 0.1 3.4e-56 190.9 0.1 1.9 1 402428 pacid=15404190 transcript=402428 locus=402428 ID=40 7.30E-55 186.5 2.0 1.3e-34 120.0 0.9 2.5 2 412487 pacid=15411666 transcript=412487 locus=412487 ID=41 1.30E-53 182.4 1.6 5.2e-52 177.2 1.1 2.0 1 141996 pacid=15413678 transcript=141996 locus=141996 ID=14 1.60E-21 76.9 0.0 1.8e-21 76.7 0.0 1.0 1 36792 pacid=15411703 transcript=36792 locus=36792 I D=3679 2.50E-21 76.3 0.0 2.7e-21 76.2 0.0 1.0 1 81627 pacid=15409759 transcript=81627 locus=81627 I D=8162 1.30E-19 70.6 0.3 1.4e-19 70.5 0.2 1.0 1 39033 pacid=15414990 transcript=39033 locus=39033 I D=3903 2.10E-19 70.0 0.0 3.8e-19 69.1 0.0 1.4 1 111632 pacid=15411934 transcript=111632 locus=111632 ID=11 3.40E-15 56.1 0.1 4.3e-15 55.8 0.0 1.2 1 421752 pacid=15418113 transcript=421752 locus=421752 ID=42 3.40E-12 46.3 0.1 7.3e-12 45.2 0.1 1.5 1 37017 pacid=15409001 transcript=37017 locus=37017 I D=3701 后面还有一些就省略了,我想请教一下这个结果怎么看,以什么为依据来进一步筛选呢? |
» 猜你喜欢
为什么蛋白质氨基酸测定大家都测17种?
已经有5人回复
《灰分记:我与坩埚的“灰烬”之恋》
已经有3人回复
化学工程及工业化学论文润色/翻译怎么收费?
已经有198人回复
求助 食品检验工(基础知识),中国劳动社会出版社 电子版
已经有5人回复
胶体几丁质的结晶度?
已经有0人回复
诚挚招收全日制博士!!!中国农业科学院麻类研究所谭志坚研究员课题组招收博士
已经有2人回复
三甲基羟乙基丙二胺的合成路线
已经有5人回复
4楼2016-09-04 19:57:38
★ ★ ★
西门吹雪170: 金币+3, 鼓励分享交流 2016-10-17 23:06:39
西门吹雪170: 金币+3, 鼓励分享交流 2016-10-17 23:06:39
|
不好意思,刚看到。这个其实我也是很困惑的,只能说一下我自己的理解,不合理的地方可以一起指正改善:这个后续处理其实很麻烦,我觉得应该可以分这么几个步骤吧:1 blastp参数设置 主要是E值,但是因为不同物种的基因组或蛋白组数据大小不同,e值统一标准不好定,我一般是设置为-10到-50之间吧,这个我也不好说,之前也有看过有用-100的。。。但是这个只是初步筛选,之后需要进一步设置条件筛选,比如你可以设置对序列一致率的阈值进行设定,如>50,最好也要留意blast结果里的序列覆盖率和比对长度,blast的筛选也就是这些了吧;2。如果筛选出来的序列还是很多的话,还是可以进行进一步筛选的,首先可以对每个基因进行EST库的比对,看看有没有有的基因序列没有EST数据,这个序列可能在生物体内并不表达,如果有相应物种的转录组数据最好了,可以看一下它的表达水平,有些基因组注释的基因并不转录的,可能是假基因也可能是没有作用的或者是注释错误的。3。就是再进行功能域扫描或者查找具体的代表性功能域,这个吧,其实我也没有啥好办法,希望谁可以给我介绍一个好方法,我目前用的是HMMsearch还有就是比较笨的人工查找,序列比对后直接人工查找。。。。4.最后的最后其实如果你想确定超家族里的某种特定功能基因家族成员,比如氧化还原酶超家族和CYP450成员就巨多,而你关心的可能只是其中某一个小亚家族的成员情况,这种情况下建议最后用已知功能的序列和你筛选的构建系统发生树,看看聚类情况 这就是我的一些经验吧,大家有什么补充或者认为不妥的情况可以提出来一起交流哈 |
8楼2016-10-17 22:59:53
xn8008: 欢迎发帖交流 2016-10-19 09:06:12
![]() |
2楼2016-08-18 20:46:00
3楼2016-08-20 08:48:34

5楼2016-09-06 21:08:36
6楼2016-10-17 08:58:30
7楼2016-10-17 22:42:52
9楼2016-10-18 21:29:33
10楼2016-11-15 10:54:00













回复此楼
零下一度lj