24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1551  |  回复: 8

thunderay

铁杆木虫 (小有名气)

[求助] QSAR中分集的问题

在一般的QSAR中,会分training set 和prediction set,前者用于建模,后者用于对建立模型的验证,然后如果这个模型可行就可以用于其它未知物的预测了;
但也有文献是在建模时分为calibration set, prediction set和testing set,这样分和之前的方法有没有实质性的区别?
回复此楼

» 收录本帖的淘帖专辑推荐

高斯

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
thunderay(金币+2): ★★★很有帮助 谢谢啊,那prediction set和testing set在用于验证的时候有实质性的差别吗 2012-02-28 09:22:18
dbb627(金币+2, 专家考核): 感谢应助 2012-03-02 10:55:42
按照统计学,应该是按照上述第二种方法;但由于实践中数据集不够大(样本少),因此之分两组,但training set在建模时,要用Cross Validation。
2楼2012-02-27 21:38:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

thunderay

铁杆木虫 (小有名气)

引用回帖:
: Originally posted by yalefield at 2012-02-27 21:38:15:
按照统计学,应该是按照上述第二种方法;但由于实践中数据集不够大(样本少),因此之分两组,但training set在建模时,要用Cross Validation。

还有就是假设只有20个左右化合物,选取出其中80%在用软件比如DS建立MLR模型时,会自动Cross Validation吗?
3楼2012-02-28 09:24:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

【答案】应助回帖

俺不知道DS具体会咋做;如果它不做CV,俺估计它也不敢出来混。
4楼2012-02-28 09:31:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

thunderay

铁杆木虫 (小有名气)

引用回帖:
: Originally posted by yalefield at 2012-02-28 09:31:16:
俺不知道DS具体会咋做;如果它不做CV,俺估计它也不敢出来混。

还想请教一下,用training set或者calibration set建模完成之后,prediction set和testing set在用于验证的时候有实质性的差别吗
5楼2012-02-29 18:50:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

czbee

金虫 (正式写手)

环科人

终于看到QSAR的帖子啦,留言收藏~~~
环科人
6楼2012-02-29 20:38:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★
dbb627(金币+2, 专家考核): 感谢应助 2012-03-02 10:56:17
引用回帖:
5楼: Originally posted by thunderay at 2012-02-29 18:50:32:
还想请教一下,用training set或者calibration set建模完成之后,prediction set和testing set在用于验证的时候有实质性的差别吗

training set或者calibration set建模,属于自我评价
用prediction set,则是同事评价
而test set,则是社会评价
7楼2012-03-01 09:12:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zlp-lw

木虫 (正式写手)

【答案】应助回帖


fegg7502: 金币+1, 鼓励交流 2012-09-08 10:21:14
你好,我想请教一下,那你的测试集和训练集是用什么方法划分的?
8楼2012-09-07 20:09:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yang16

新虫 (小有名气)

引用回帖:
2楼: Originally posted by yalefield at 2012-02-27 21:38:15
按照统计学,应该是按照上述第二种方法;但由于实践中数据集不够大(样本少),因此之分两组,但training set在建模时,要用Cross Validation。

您好,请问怎么划分测试集和训练集啊,谢谢啦
9楼2014-09-13 10:53:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 thunderay 的主题更新
信息提示
请填处理意见