24小时热门版块排行榜    

查看: 2927  |  回复: 11

bbslover

金虫 (正式写手)

[交流] 【求助】如何判断是否过拟合(overfitting)? 已有5人参与

1,如何判断过拟合呢,有什么判断指标吗?比如  训练集的R2,验证集的Q2,还有独立外部测试集的R2都应该是多少时候,预测的模型可以接受? 他们得到的值多少时候表示过拟合呢? 比如说 训练集的R2=0.949341 ,但是独立的外部测试集的R2=0.700425 ,这样属于过拟合吗?
2,单独从散点图能看出是否过拟合吗?
3.,这张图片是我得到的实验值和预测值的三点图,训练集的R2=0.94,独立测试集的R2=0.70,这张图能看出过拟合吗? 对这张图还有什么可以改进的地方?

谢谢!


[ Last edited by bbslover on 2010-5-9 at 20:46 ]
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
ghcacj(金币+2):谢谢 2010-05-10 08:19:27
(1)X轴、Y轴的起点、终点、单位长度都要一致;是否从零点开始?
(2)训练集明显呈现两条线,说明训练集的样本完全可以分为两组,而不应该强制性地捏和为一组来建模。
2楼2010-05-09 23:44:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

tjegg

铁杆木虫 (著名写手)


小木虫(金币+0.5):给个红包,谢谢回帖交流
正在学习中,支持一下。
除了你的亲人,没有人应该对你好,对你好的人,一定要珍惜。
3楼2010-05-10 06:32:56
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bbslover

金虫 (正式写手)

引用回帖:
Originally posted by yalefield at 2010-05-09 23:44:14:
(1)X轴、Y轴的起点、终点、单位长度都要一致;是否从零点开始?
(2)训练集明显呈现两条线,说明训练集的样本完全可以分为两组,而不应该强制性地捏和为一组来建模。

谢谢老汉的回答,但是训练集如何再分为两组呢?
要是分两组的话,是不是分别再建模,然后分别再预测那个外部测试集?

还有,就我得到的结果来看,是否过拟合呢?

[ Last edited by bbslover on 2010-5-10 at 08:39 ]
4楼2010-05-10 08:38:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
ghcacj(金币+1):谢谢 2010-05-10 09:43:41
引用回帖:
Originally posted by bbslover at 2010-05-10 08:38:23:
但是训练集如何再分为两组呢?

仁者见仁
引用回帖:
要是分两组的话,是不是分别再建模,然后分别再预测那个外部测试集?

那当然。
引用回帖:
还有,就我得到的结果来看,是否过拟合呢?

目前无法回答。
5楼2010-05-10 09:11:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bbslover

金虫 (正式写手)

好的 多谢 指导
6楼2010-05-10 09:44:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

tingjun

木虫 (小有名气)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
lei0736(金币+2):谢谢 2010-05-11 20:13:52
最好用RMSE和AARD来比较一下训练集和测试集,这两个值分别都接近的话,模型应该还行,最好是分两组
7楼2010-05-11 20:00:27
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zlp-lw

木虫 (正式写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
请问假如训练集成上面的一条直线,而测试集不像训练集那样的集中而是分散,能说明模型的好坏吗?我正在学习,希望大牛们指导指导,谢谢。。。。
8楼2012-10-23 16:49:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bbslover

金虫 (正式写手)

引用回帖:
1274473楼: Originally posted by zlp-lw at 2012-10-23 16:49:00
请问假如训练集成上面的一条直线,而测试集不像训练集那样的集中而是分散,能说明模型的好坏吗?我正在学习,希望大牛们指导指导,谢谢。。。。

其实,最终还是看结果的。建议看 beware of q2这篇论文,如果你的统计结果达到他们建议的要求,就相当好了。
9楼2012-10-23 20:05:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zlp-lw

木虫 (正式写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
那篇文献我看了,就用文献中的方法验证,所得的训练集和测试集的R2分别为0.9215,0.6917;q2分别为0.9240,0.5993;RMSE分别为0.0653,0.6610。我的预测结果中,测试集的验证没有训练集的好,请问是什么原因引起的?谢谢。。。。
10楼2012-10-24 13:23:19
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 bbslover 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见