24小时热门版块排行榜    

CyRhmU.jpeg
查看: 511  |  回复: 8
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

bbslover

金虫 (正式写手)

[交流] 【讨论】有关描述子压缩问题?

都知道2d-qsar首先会计算大量的描述子,然后对其进行压缩,选择最重要的几个,那压缩过程中是对那个集合呢?
  1.对训练集? 然后用选出来的描述子建立模型,看看模型的r和q? 如果还可以的话再用这个模型来预测测试集?

   2.对整个集合?压缩完再分训练集和测试集?再训练模型,验证模型?但是这样的话测试集参与了变量压缩?不应该这样做吧?
  
  3.衍生出第三个问题。是先对集合划分训练集和测试集,用训练集建立模型?还是先对整个集合进行变量压缩,再分训练集和测试集?

  4.是不是测试集只有在模型外部验证时候才派上用场, 变量压缩,模型建立等时候都不参与?

,谢谢!

[ Last edited by zeoliters on 2009-11-13 at 18:26 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dongdong3881

木虫 (正式写手)

等专业人士的回答
好好自己好好学习
3楼2009-10-15 17:12:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 9 个回答

chinayangyf

木虫 (正式写手)

这个不是我的专业,帮你顶
2楼2009-10-15 17:08:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★ ★ ★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
mingdong(金币+3,VIP+0):感谢交流! 10-16 10:13
mingdong(金币+3,VIP+0):感谢交流! 10-16 10:13
按照统计学要求,实际上有4个集合:

(1)Training Set (自变量已知,因变量已知)
(2)Validating Set (自变量已知,因变量已知)
(3)Test Set(自变量未知,因变量未知)
(4)Real-world Set(自变量未知,因变量未知)

而现在用于化学的QSAR/QSPR,发表论文时
(A)肯定还没有(4)
(B)也没有(3)
(C)于是把(1)和(2)混起来
(D)再划分为Training Set和Test Set,玩儿过家家。

你说,该怎么操作?
5楼2009-10-15 23:02:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bbslover

金虫 (正式写手)

引用回帖:
Originally posted by yalefield at 2009-10-15 23:02:
按照统计学要求,实际上有4个集合:

(1)Training Set (自变量已知,因变量已知)
(2)Validating Set (自变量已知,因变量已知)
(3)Test Set(自变量未知,因变量未知)
(4)Real-world Set(自变 ...

想咱玩,就咱玩? 没理解
6楼2009-10-16 00:32:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复(可上传附件)
信息提示
请填处理意见