24小时热门版块排行榜    

CyRhmU.jpeg
查看: 10033  |  回复: 17

策马入林

新虫 (小有名气)

[交流] Hmmer search得到的结果怎么分析

想从注释的蛋白组数据中筛选出一个基因家族的成员,用了blastp,还用HMM build 构建了参考的模型,然后用这个模型对蛋白组数据进行了搜索,得到的结果如下
#        hmmsearch        :: search profile(s) against a sequen        ce database                                       
#        HMMER 3.0        (March 2010); http://hmmer.org/                                               
#        Copyright        (C) 2010 Howard Hughes Medical Instit        ute.                                       
#        Freely di        stributed under the GNU General Public        License (G        PLv3).                               
#        - - - - -        - - - - - - - - - - - - - - - - - - -        - - - - -        - - - - -        - -                       
#        query HMM        file:                  CCR.hmm                                               
#        target se        quence database:        Smoellendorffi        i_91_v1.0.p        rotein.fa        sta                       
#        - - - - -        - - - - - - - - - - - - - - - - - - -        - - - - -        - - - - -        - -                       
                                                               
Q        uery:        clustal-ccr  [M=338]                                               
S        cores for        complete sequences (score includes all        domains):                                       
        #NAME?        sequence ---   --- best 1 domain ---        -#dom-                                       
        E-value        score  bias    E-value  score  bias        exp  N        Sequence        Description                       
        -------        ------ -----    ------- ------ -----        ---- --        --------        -----------                       
        3.10E-151        503.4   0.4   3.4e-151  503.2   0.3        1.0  1        271114        pacid=15420855        transcript=271114        locus=271114        ID=27
        8.20E-122        406.6   0.1   9.1e-122  406.5   0.1        1.0  1        134883        pacid=15414495        transcript=134883        locus=134883        ID=13
        4.20E-120        401.0   0.2   4.7e-120  400.9   0.2        1.0  1        85242        pacid=15418444        transcript=85242        locus=85242 I        D=8524
        2.30E-118        395.3   0.0   2.5e-118  395.2   0.0        1.0  1        175949        pacid=15402139        transcript=175949        locus=175949        ID=17
        7.80E-108        360.7   0.0   9.3e-108  360.4   0.0        1.0  1        234633        pacid=15404604        transcript=234633        locus=234633        ID=23
        9.80E-104        347.2   0.1   1.1e-103  347.1   0.1        1.0  1        227661        pacid=15406323        transcript=227661        locus=227661        ID=22
        4.00E-100        335.3   0.0   4.4e-100  335.2   0.0        1.0  1        227659        pacid=15406304        transcript=227659        locus=227659        ID=22
        3.60E-90        302.6   0.0    4.1e-90  302.4   0.0        1.0  1        74610        pacid=15411358        transcript=74610        locus=74610 I        D=7461
        1.40E-89        300.7   0.0    1.5e-89  300.6   0.0        1.0  1        135301        pacid=15413377        transcript=135301        locus=135301        ID=13
        8.20E-89        298.1   0.0    9.1e-89  298.0   0.0        1.0  1        413044        pacid=15411442        transcript=413044        locus=413044        ID=41
        6.80E-88        295.1   0.0    7.6e-88  295.0   0.0        1.0  1        80798        pacid=15407661        transcript=80798        locus=80798 I        D=8079
        7.80E-85        285.1   0.1    1.1e-83  281.2   0.1        1.9  1        172432        pacid=15411880        transcript=172432        locus=172432        ID=17
        1.30E-79        267.9   0.5      2e-78  264.0   0.3        2.0  1        97473        pacid=15410827        transcript=97473        locus=97473 I        D=9747
        3.60E-79        266.5   0.3    7.7e-78  262.1   0.2        2.0  1        92506        pacid=15419134        transcript=92506        locus=92506 I        D=9250
        9.50E-79        265.1   0.2    2.1e-77  260.7   0.2        2.0  1        97205        pacid=15409059        transcript=97205        locus=97205 I        D=9720
        8.30E-57        192.9   0.1    3.4e-56  190.9   0.1        1.9  1        402428        pacid=15404190        transcript=402428        locus=402428        ID=40
        7.30E-55        186.5   2.0    1.3e-34  120.0   0.9        2.5  2        412487        pacid=15411666        transcript=412487        locus=412487        ID=41
        1.30E-53        182.4   1.6    5.2e-52  177.2   1.1        2.0  1        141996        pacid=15413678        transcript=141996        locus=141996        ID=14
        1.60E-21        76.9   0.0    1.8e-21   76.7   0.0        1.0  1        36792        pacid=15411703        transcript=36792        locus=36792 I        D=3679
        2.50E-21        76.3   0.0    2.7e-21   76.2   0.0        1.0  1        81627        pacid=15409759        transcript=81627        locus=81627 I        D=8162
        1.30E-19        70.6   0.3    1.4e-19   70.5   0.2        1.0  1        39033        pacid=15414990        transcript=39033        locus=39033 I        D=3903
        2.10E-19        70.0   0.0    3.8e-19   69.1   0.0        1.4  1        111632        pacid=15411934        transcript=111632        locus=111632        ID=11
        3.40E-15        56.1   0.1    4.3e-15   55.8   0.0        1.2  1        421752        pacid=15418113        transcript=421752        locus=421752        ID=42
        3.40E-12        46.3   0.1    7.3e-12   45.2   0.1        1.5  1        37017        pacid=15409001        transcript=37017        locus=37017 I        D=3701
后面还有一些就省略了,我想请教一下这个结果怎么看,以什么为依据来进一步筛选呢?
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

策马入林

新虫 (小有名气)


xn8008: 金币+1, 欢迎发帖交流,说出来大家学习一下 2016-10-19 09:06:33
已经解决,有类似问题的可以找我

» 本帖已获得的红花(最新10朵)

4楼2016-09-04 19:57:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

策马入林

新虫 (小有名气)

★ ★ ★
西门吹雪170: 金币+3, 鼓励分享交流 2016-10-17 23:06:39
引用回帖:
6楼: Originally posted by 卡卡罗特zxg at 2016-10-17 08:58:30
楼主,我用blastp将基因与30种物种基因组组成的数据库进行比对,得出的是10,000多的目的基因及其分别匹配的基因,如何进一步处理得到如:每个基因相匹配的物种数等...

不好意思,刚看到。这个其实我也是很困惑的,只能说一下我自己的理解,不合理的地方可以一起指正改善:这个后续处理其实很麻烦,我觉得应该可以分这么几个步骤吧:1 blastp参数设置 主要是E值,但是因为不同物种的基因组或蛋白组数据大小不同,e值统一标准不好定,我一般是设置为-10到-50之间吧,这个我也不好说,之前也有看过有用-100的。。。但是这个只是初步筛选,之后需要进一步设置条件筛选,比如你可以设置对序列一致率的阈值进行设定,如>50,最好也要留意blast结果里的序列覆盖率和比对长度,blast的筛选也就是这些了吧;2。如果筛选出来的序列还是很多的话,还是可以进行进一步筛选的,首先可以对每个基因进行EST库的比对,看看有没有有的基因序列没有EST数据,这个序列可能在生物体内并不表达,如果有相应物种的转录组数据最好了,可以看一下它的表达水平,有些基因组注释的基因并不转录的,可能是假基因也可能是没有作用的或者是注释错误的。3。就是再进行功能域扫描或者查找具体的代表性功能域,这个吧,其实我也没有啥好办法,希望谁可以给我介绍一个好方法,我目前用的是HMMsearch还有就是比较笨的人工查找,序列比对后直接人工查找。。。。4.最后的最后其实如果你想确定超家族里的某种特定功能基因家族成员,比如氧化还原酶超家族和CYP450成员就巨多,而你关心的可能只是其中某一个小亚家族的成员情况,这种情况下建议最后用已知功能的序列和你筛选的构建系统发生树,看看聚类情况
这就是我的一些经验吧,大家有什么补充或者认为不妥的情况可以提出来一起交流哈
8楼2016-10-17 22:59:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖
xn8008: 欢迎发帖交流 2016-10-19 09:06:12
2楼2016-08-18 20:46:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

策马入林

新虫 (小有名气)

xn8008: 欢迎发帖交流 2016-10-19 09:06:16
没有人来帮忙解答一下吗
3楼2016-08-20 08:48:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

山脚下的喵

新虫 (小有名气)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
xn8008: 金币+1, 欢迎发帖交流 2016-10-19 09:06:39
请问大神,1、如何使用HMM?
2、为什么我的电脑不能用PFAM呢,我安装了JAVA?
3、如果用保守片段tblastn筛出了一些家族基因,还用HMM再做一遍筛选么?
非常感谢~~
高山自有方便路,远水自有渡河人?
5楼2016-09-06 21:08:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

卡卡罗特zxg

金虫 (小有名气)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
xn8008: 金币+1, 欢迎发帖交流 2016-10-19 09:06:45
引用回帖:
4楼: Originally posted by 策马入林 at 2016-09-04 19:57:38
已经解决,有类似问题的可以找我

楼主,我用blastp将基因与30种物种基因组组成的数据库进行比对,得出的是10,000多的目的基因及其分别匹配的基因,如何进一步处理得到如:每个基因相匹配的物种数等
6楼2016-10-17 08:58:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

策马入林

新虫 (小有名气)


xn8008: 金币+1, 欢迎发帖交流 2016-10-19 09:06:50
引用回帖:
5楼: Originally posted by 山脚下的喵 at 2016-09-06 21:08:36
请问大神,1、如何使用HMM?
2、为什么我的电脑不能用PFAM呢,我安装了JAVA?
3、如果用保守片段tblastn筛出了一些家族基因,还用HMM再做一遍筛选么?
非常感谢~~

我也是菜鸟,可以一起交流交流。一般认为HMM可以更全面的找出潜在的家族成员,我没有使用PFAM的数据库,我是用已经报道的不同物种里的这个基因家族的基因来构建HMM模型,也就是HMM-build 然后用自己这个模型对不同物种的蛋白组数据进行HMM search的,但是结果我也不清楚好坏
7楼2016-10-17 22:42:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

卡卡罗特zxg

金虫 (小有名气)

xn8008: 欢迎发帖交流 2016-10-19 09:07:26
引用回帖:
8楼: Originally posted by 策马入林 at 2016-10-17 22:59:53
不好意思,刚看到。这个其实我也是很困惑的,只能说一下我自己的理解,不合理的地方可以一起指正改善:这个后续处理其实很麻烦,我觉得应该可以分这么几个步骤吧:1 blastp参数设置 主要是E值,但是因为不同物种的 ...

谢谢
9楼2016-10-18 21:29:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

为什么不白

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
4楼: Originally posted by 策马入林 at 2016-09-04 19:57:38
已经解决,有类似问题的可以找我

你好,hmmer结果筛选的依据这个问题您解决了吗?方面交流一下吗?
10楼2016-11-15 10:54:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 策马入林 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见