24小时热门版块排行榜    

查看: 934  |  回复: 3

忧郁的五花肉

新虫 (初入文坛)

[求助] 如果做机器学习预测蛋白质功能位点的话,样本数量怎么定? 已有2人参与

现在正在用CD-hit给氨基酸序列做去冗余,不知道应该把cut-off值设到多少?而且不知是否需要多次去冗余(就是把第一次结果投进去二次去冗余,再把第二次结果做第三次……)?最后该留多少个样本比较合适?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhaoxw303

禁虫 (正式写手)

★ ★
感谢参与,应助指数 +1
忧郁的五花肉: 金币+2, ★★★很有帮助 2015-03-12 10:36:22
本帖内容被屏蔽

2楼2015-01-02 19:54:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

黑藻先生

银虫 (小有名气)

引用回帖:
2楼: Originally posted by zhaoxw303 at 2015-01-02 19:54:03
cut-off值设定可以参考已经发表的论文,一次去冗余就可以了,留多少样本得看你处理后得到的数据有多少。

交流一下哈~
CUT-OFF的确有的参考文献给出了,但是自己试验的时候毕竟很多时候跟参考文献的情况不是完全一致
所以个人感觉CUT-OFF更多的时候是不是其实是个经验值,甚至可能要根据自己的样本来摸索?
3楼2015-01-03 00:01:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

floriazeng

新虫 (小有名气)

【答案】应助回帖

楼主可否传一份cd-hit给我啊,最近也要做,但从网上下载的软件包安装不了,可否告知详细安装步骤,跪谢!
4楼2015-11-13 15:58:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 忧郁的五花肉 的主题更新
信息提示
请填处理意见