24小时热门版块排行榜    

查看: 944  |  回复: 6
当前主题已经存档。

bbslover

金虫 (正式写手)

[交流] 【讨论】还是对随机分训练集和测试集不懂!!!!

paper经常说把数据集 随机 分成训练集和测试集,可是他们到底是怎么分的呢?

1. 比如说,我共有72个化合物,我 随便选择出18个作为测试集,剩下的就作为训练集,这叫随机分吗? 这18个测试集没有按照活性的均匀分布,也没有按照化合物结构的差异均匀分布,就是自己随便选择的18个,这叫随机吗?

  2. 如果叫做随机,建立的模型也不错,那别人也在这些化合物中随机选取18个(不一定和我的相同),得到的结果也不错,建立的模型也说得过去,那这么随机选取有什么意义呢? 反正文章中常常说是随机分的,到底是怎么分的? 高手帮忙详细分析一下吧!

3. 随机选取有时候不能做到活性的再测试集和训练集均匀分布, 那么这么选取有按照活性的分布,和结构多样性分布好吗?
  
4. 比如说,我这72个化合物,是该按照什么标准来分训练集和测试集呢?仅仅就根据活性就行吗? 还是有其他的标准??


  以上4个问题,希望战友们讨论一下。

[ Last edited by zdhlover on 2009-11-13 at 15:58 ]
回复此楼

» 收录本帖的淘帖专辑推荐

软件

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

八仙过海,各显其能

★ ★ ★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
fegg7502(金币+4,VIP+0):多谢 9-30 18:12
(1) 按活性排队

从最高开始,奇数进训练、偶数进测试
或者:1、2进训练,3进测试,4、5进训练,6进测试...

(2) 按“距离”

选择若干描述子,计算其“距离”(如欧几里德距离等,有很多种)
活性最高的,作为出发点,它本身进训练。
最近的一个进训练,其次的一个进测试;
再次的两个进训练,再再次的一个进测试;
......

(3) 按簇

按照类似(2)的做法,先把所有分子分簇(Cluster Analysis)
然后,每簇轮流出代表,进入测试、训练

(4) 学上帝,掷色子
2楼2009-09-30 16:24:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bbslover

金虫 (正式写手)

yalefield前辈就是好,每次都给予很多的帮助,再次感谢,讲得很详细,回去按照去做。

在这祝: yalefield前辈,和所有战友中秋快乐,十一快乐!

[ Last edited by bbslover on 2009-9-30 at 20:19 ]
3楼2009-09-30 18:09:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by bbslover at 2009-9-30 18:09:
yalefield前辈就是好,每次都给与很多的帮助,再次感谢,讲得很详细,回去按照去做。

是“给予”,不是“给与”。呴呴。
4楼2009-09-30 18:43:19
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bbslover

金虫 (正式写手)

呵呵,我已经修改了,多谢更正,多多向您学习!
5楼2009-09-30 20:20:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

tjegg

铁杆木虫 (著名写手)

谢的有点肉麻,夏天听着还凉快,呵呵。
除了你的亲人,没有人应该对你好,对你好的人,一定要珍惜。
6楼2009-10-02 00:34:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bbslover

金虫 (正式写手)

那必须得感谢啊。呵呵。
7楼2009-10-02 00:53:48
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 bbslover 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见