当前位置: 首页 > 论文投稿 >机器学习方面的论文,投稿人质疑样本数量不够,容易过拟合

机器学习方面的论文,投稿人质疑样本数量不够,容易过拟合

作者 ly205205
来源: 小木虫 300 6 举报帖子
+关注

大修,审稿人的意见之一:
Huge potential problems with overfitting. The dataset is an unbalanced set of records of 303 patients, of whom 216 have CAD, with more than 50 attributes. To train a classifier with 50 attributes without overfitting would require a far larger database, with thousands of patients. It cannot be done with a dataset of 303 patient records.

因为用的是别人的数据集,所以无法对数据集的样本数量做变动,但是审稿人提出了意见,我应该如何应对比较好。 返回小木虫查看更多

今日热帖
  • 精华评论
  • rainchxy

    你用通用的数据集啊

  • ly205205

    引用回帖:
    2楼: Originally posted by rainchxy at 2017-10-03 19:59:51
    你用通用的数据集啊

    通用数据集也是几百例样本,我用的这个数据集比通用数据集特征更多

  • byq123

    引用回帖:
    3楼: Originally posted by ly205205 at 2017-10-03 20:02:10
    通用数据集也是几百例样本,我用的这个数据集比通用数据集特征更多...

    审稿人的意思,300多个样本,要训练出50多个特征,可能不行。
    要么增加样本集,要目减少特征的数量。

  • ly205205

    引用回帖:
    4楼: Originally posted by byq123 at 2017-10-03 20:05:27
    审稿人的意思,300多个样本,要训练出50多个特征,可能不行。
    要么增加样本集,要目减少特征的数量。...

    首先这个数据集是别人的,因为采集环境不一样,没法自行增加样本了,但是论文首先做了特征选择,所以没有全部用50多个特征。而且有些其他论文用的也是这个数据集。

  • byq123

    引用回帖:
    5楼: Originally posted by ly205205 at 2017-10-03 20:34:43
    首先这个数据集是别人的,因为采集环境不一样,没法自行增加样本了,但是论文首先做了特征选择,所以没有全部用50多个特征。而且有些其他论文用的也是这个数据集。...

    我觉得要解决这个问题,需要明确几个问题:
    (1) 样本数量和特征的维度之间有一个什么样的关系(才不会出现过拟合);
    (2) 你说已经做了特征选择,那你这个特征选择的过程是否已经满足了这样的一个关系(不会出现过拟合);

  • Roanlys

    想问一下,作者最后是如何回复审稿人的?因为我也有类似的问题。

猜你喜欢
下载小木虫APP
与700万科研达人随时交流
  • 二维码
  • IOS
  • 安卓