版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

ilovethis

金虫 (小有名气)

应助: 5 (幼儿园)
金币: 149.1
红花: 2
帖子: 262
在线: 468.5小时
虫号: 503138
注册: 2008-02-15
专业: 抗肿瘤药物药理

[求助] 为什么训练集的交叉验证准确率低于测试集的准确率已有1人参与

最近做了一个分类模型，训练集做10折交叉验证，准确率在60%，而测试集的准确率却达到了90%，好像不太常见，不知道原因是什么？

回复此楼

» 猜你喜欢

轴手性化合物的确定已经有5人回复
MSER送审了还被拒稿已经有6人回复
内心匮乏已经有7人回复
明天E口面上会评已经有8人回复
不要再数国自然申请书的 filecode 的分隔符个数了已经有17人回复
祈祷青基必中已经有16人回复
生命口会评已经有12人回复
27届辽宁大学应届毕业生申博已经有3人回复
关于如何从代码看上不上会已经有23人回复
chemdraw 已经有6人回复

» 本主题相关价值贴推荐，对您同样有帮助:

1楼 2013-01-14 18:51:21

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

zongzhiyuan

金虫 (小有名气)

应助: 42 (小学生)
金币: 1181.2
红花: 1
帖子: 179
在线: 155小时
虫号: 1201996
注册: 2011-02-12
性别: GG
专业: 通信理论与系统

【答案】应助回帖

感谢参与，应助指数 +1

如果训练集和测试集确实是不相关的话，确实不正常。换一组测试集试试？

赞一下

回复此楼

2楼2013-01-15 15:02:36

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

漫天雕

金虫 (正式写手)

应助: 18 (小学生)
金币: 1240.5
散金: 746
帖子: 311
在线: 151小时
虫号: 1561515
注册: 2012-01-03
性别: GG
专业: 模式识别

【答案】应助回帖

感谢参与，应助指数 +1

是不是分类器设计上有问题！

赞一下

回复此楼

宝贵青春，耗不起！

3楼2013-01-16 12:47:29

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

michael.lu

金虫 (著名写手)

应助: 40 (小学生)
金币: 1393.9
散金: 40
红花: 4
帖子: 1047
在线: 146.5小时
虫号: 742466
注册: 2009-04-07
性别: GG
专业: 模式识别

检查编程是否有问题。

赞一下

回复此楼

还需努力。

4楼2013-01-17 16:01:41

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

mirage_cn

木虫 (正式写手)

应助: 3 (幼儿园)
金币: 2667.5
散金: 5
帖子: 485
在线: 206.7小时
虫号: 699778
注册: 2009-02-11
专业: 自然语言理解与机器翻译

【答案】应助回帖

你应当分析一下测试集和训练是否有相同的数据，如果有相同的数据且相同的数据又比较多，那自然在测试数据上的准备率会比较高！

赞一下

回复此楼

5楼2013-01-18 15:59:32

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

ilovethis

金虫 (小有名气)

应助: 5 (幼儿园)
金币: 149.1
红花: 2
帖子: 262
在线: 468.5小时
虫号: 503138
注册: 2008-02-15
专业: 抗肿瘤药物药理

引用回帖:

5楼: Originally posted by mirage_cn at 2013-01-18 15:59:32
你应当分析一下测试集和训练是否有相同的数据，如果有相同的数据且相同的数据又比较多，那自然在测试数据上的准备率会比较高！

没有相同的数据

回复此楼

6楼2013-01-18 17:40:06

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

木鸟2012

铁虫 (小有名气)

应助: 0 (幼儿园)
金币: 216
红花: 1
帖子: 146
在线: 55.6小时
虫号: 1883145
注册: 2012-07-07
专业: 蛋白质组学

【答案】应助回帖

求教：训练集和测试集可以自己划分吗，comfa测试集用知道它们的实际活性数值吗？不胜感激啊？

赞一下

回复此楼

努力做科研

7楼2013-02-23 17:06:01

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

youth0826

至尊木虫 (著名写手)

weibo.com/138147022

应助: 172 (高中生)
金币: 10458.4
散金: 145
红花: 4
帖子: 1726
在线: 149.4小时
虫号: 707170
注册: 2009-02-23
专业: 模式识别

【答案】应助回帖

10-fold cv是不是太多了？考虑少一点，比如3-5
又或者将测试集和验证集反过来训练试试

赞一下

回复此楼

QQ群：202610705，关注计算机视觉，模式识别，模式分析，机器学习，人工智能，统计学习，图像处理等，欢迎加入！

8楼2013-02-23 18:04:55

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

MathApp

新虫 (初入文坛)

应助: 2 (幼儿园)
金币: 152.9
帖子: 19
在线: 5.5小时
虫号: 2244730
注册: 2013-01-16
专业: 应用数学方法

【答案】应助回帖

建议如下：1）运行调试中，检查程序问题。程序bug是制造“惊喜”的源头
2)如果程序很好的实现了模型，那么就是模型不适合你的数据，因为这表明存在如下问题：每次训练，都使得训练之后的模型对测试的 1折效果很好，而对用于训练的9折效果惨淡，也就是模型落入了局部极值点而非全局极值点。这很有可能是模型在具体数据下的失效问题。这个，也要跟踪程序运行或者仔细分析数据空间才能知道真正的原因。

赞一下

回复此楼

9楼2013-02-24 00:00:50

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖