机器学习方面的论文,投稿人质疑样本数量不够,容易过拟合
大修,审稿人的意见之一:
Huge potential problems with overfitting. The dataset is an unbalanced set of records of 303 patients, of whom 216 have CAD, with more than 50 attributes. To train a classifier with 50 attributes without overfitting would require a far larger database, with thousands of patients. It cannot be done with a dataset of 303 patient records.
因为用的是别人的数据集,所以无法对数据集的样本数量做变动,但是审稿人提出了意见,我应该如何应对比较好。
返回小木虫查看更多
今日热帖
京公网安备 11010802022153号
你用通用的数据集啊
通用数据集也是几百例样本,我用的这个数据集比通用数据集特征更多
审稿人的意思,300多个样本,要训练出50多个特征,可能不行。
要么增加样本集,要目减少特征的数量。
首先这个数据集是别人的,因为采集环境不一样,没法自行增加样本了,但是论文首先做了特征选择,所以没有全部用50多个特征。而且有些其他论文用的也是这个数据集。
我觉得要解决这个问题,需要明确几个问题:
(1) 样本数量和特征的维度之间有一个什么样的关系(才不会出现过拟合);
(2) 你说已经做了特征选择,那你这个特征选择的过程是否已经满足了这样的一个关系(不会出现过拟合);
,
想问一下,作者最后是如何回复审稿人的?因为我也有类似的问题。