| 查看: 964 | 回复: 6 | ||||
| 当前主题已经存档。 | ||||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | ||||
bbslover金虫 (正式写手)
|
[交流]
【讨论】还是对随机分训练集和测试集不懂!!!!
|
|||
|
paper经常说把数据集 随机 分成训练集和测试集,可是他们到底是怎么分的呢? 1. 比如说,我共有72个化合物,我 随便选择出18个作为测试集,剩下的就作为训练集,这叫随机分吗? 这18个测试集没有按照活性的均匀分布,也没有按照化合物结构的差异均匀分布,就是自己随便选择的18个,这叫随机吗? 2. 如果叫做随机,建立的模型也不错,那别人也在这些化合物中随机选取18个(不一定和我的相同),得到的结果也不错,建立的模型也说得过去,那这么随机选取有什么意义呢? 反正文章中常常说是随机分的,到底是怎么分的? 高手帮忙详细分析一下吧! 3. 随机选取有时候不能做到活性的再测试集和训练集均匀分布, 那么这么选取有按照活性的分布,和结构多样性分布好吗? 4. 比如说,我这72个化合物,是该按照什么标准来分训练集和测试集呢?仅仅就根据活性就行吗? 还是有其他的标准?? 以上4个问题,希望战友们讨论一下。 [ Last edited by zdhlover on 2009-11-13 at 15:58 ] |
» 收录本帖的淘帖专辑推荐
软件 |
» 猜你喜欢
青椒八年已不青,大家都被折磨成啥样了?
已经有13人回复
多组分精馏求助
已经有3人回复
交叉科学部支持青年基金,对三无青椒是个机会吗?
已经有6人回复
免疫学博士有名额,速联系
已经有4人回复
国家基金申请书模板内插入图片不可调整大小?
已经有6人回复
国家级人才课题组招收2026年入学博士
已经有5人回复
Fe3O4@SiO2合成
已经有6人回复
青年基金C终止
已经有4人回复
26申博求博导推荐-遥感图像处理方向
已经有4人回复
西南交通大学国家级人才团队2026年博士研究生招生(考核制)—机械、材料、力学方向
已经有3人回复
yalefield
金虫 (文坛精英)
老汉一枚
- 模拟EPI: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
4楼2009-09-30 18:43:19
yalefield
金虫 (文坛精英)
老汉一枚
- 模拟EPI: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
八仙过海,各显其能
★ ★ ★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
fegg7502(金币+4,VIP+0):多谢 9-30 18:12
小木虫(金币+0.5):给个红包,谢谢回帖交流
fegg7502(金币+4,VIP+0):多谢 9-30 18:12
|
(1) 按活性排队 从最高开始,奇数进训练、偶数进测试 或者:1、2进训练,3进测试,4、5进训练,6进测试... (2) 按“距离” 选择若干描述子,计算其“距离”(如欧几里德距离等,有很多种) 活性最高的,作为出发点,它本身进训练。 最近的一个进训练,其次的一个进测试; 再次的两个进训练,再再次的一个进测试; ...... (3) 按簇 按照类似(2)的做法,先把所有分子分簇(Cluster Analysis) 然后,每簇轮流出代表,进入测试、训练 (4) 学上帝,掷色子 |
2楼2009-09-30 16:24:30
bbslover
金虫 (正式写手)
- 应助: 1 (幼儿园)
- 金币: 4877.3
- 散金: 191
- 红花: 3
- 帖子: 540
- 在线: 140.9小时
- 虫号: 508292
- 注册: 2008-02-20
- 性别: GG
- 专业: 化学信息学
3楼2009-09-30 18:09:04
bbslover
金虫 (正式写手)
- 应助: 1 (幼儿园)
- 金币: 4877.3
- 散金: 191
- 红花: 3
- 帖子: 540
- 在线: 140.9小时
- 虫号: 508292
- 注册: 2008-02-20
- 性别: GG
- 专业: 化学信息学
5楼2009-09-30 20:20:24













回复此楼