| 查看: 3610 | 回复: 19 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
kele1982金虫 (正式写手)
|
[交流]
【求助】QSAR模型中交叉验证系数(q2)怎么获得? 已有2人参与
|
||
| 请问我用逐步回归分析方法得到一个QSAR模型,但是结果里面没有交叉验证系数q2(英文叫: leave-one-out),请问怎么计算得到啊?谢谢 |
» 猜你喜欢
085404(计算机技术)293分 希望调剂到材料相关专业
已经有0人回复
大湾区大学(筹)刘天辉课题组招收博士生(与中山大学物理学院联合培养)
已经有16人回复
物理化学论文润色/翻译怎么收费?
已经有250人回复
PbS量子点如何确定浓度
已经有11人回复
大湾区大学刘天辉课题组招收2026级博士生(与中山大学物理学院联合培养)
已经有22人回复
PbS量子点紫外吸收
已经有0人回复
比利时鲁汶大学与国家留学基金委共同资助博士研究生CSC-KU Leuven PhD Scholarship
已经有0人回复
七嗪类物质合成求助
已经有0人回复
伦敦大学学院Benjamin Moss博士招收人工智能、原位光谱、催化相关26年博士生
已经有11人回复
» 本主题相关价值贴推荐,对您同样有帮助:
关于质谱方法学验证的项目和做法
已经有16人回复
有适合化工与微生物交叉的研究课题
已经有15人回复
QSAR中分集的问题
已经有8人回复
Sybyl 3D-QSAR Q^2为负
已经有16人回复
关于李仁利和QSAR
已经有4人回复
交叉验证相关系数q方和相关系数R方
已经有14人回复
【讨论】做QSAR时训练集和测试集的划分问题
已经有5人回复
【求助】交叉验证相关系数
已经有5人回复
【求助】请教用DS做3D-QSAR问题
已经有11人回复
【求助】QSAR求助,有关参数查找
已经有4人回复
【求助】三维定量构效关系(3D-QSAR) 软件多少钱?
已经有10人回复

yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
3楼2009-02-11 10:14:07
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
★ ★ ★ ★ ★ ★ ★
xuefei06(金币+5,VIP+0):thanks! 2-11 22:47
kele1982(金币+2,VIP+0):谢谢! 2-15 10:30
xuefei06(金币+5,VIP+0):thanks! 2-11 22:47
kele1982(金币+2,VIP+0):谢谢! 2-15 10:30
|
(1)训练集与测试集的划分,本质上是一个实验设计问题。目前没有最好的,但D-optimal是一种选择。 (2)q2也好,R2也好,本质上其计算来自一组样本的观测值(或回归值)、平均值。 很明显,样本不同,这两个值肯定会变。 仅就含N个样本的训练集来说,采用LOO,即每次选9个样本(留下一个样本),那么就应该产生N个模型,也就有N个q2。 再看含有M个样本的测试集。 (1)如果只选择一个模型来预测,那么每个测试集样本都得到一个预测值。 进一步,可以用这些预测值(与观测值、平均值一起),计算R2. 可是,如果少选测试集中的一个样本,那么计算出来的R2是不是就变了? (2)如果用前面的N个模型来预测,每个样本就会得到N个预测值。 嘻嘻,那么..... |
5楼2009-02-11 22:25:21
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
7楼2009-02-12 14:35:14
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
9楼2009-02-12 18:58:57
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
抱歉抱歉,是俺老糊涂了。
★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks! 2-13 21:14
xuefei06(金币+4,VIP+0):thanks! 2-13 21:14
|
俺把留一法和留多法搞混淆了,因此造成误解。作揖。 你的q2计算法是正确的。 俺本来的意思,是想说除了留一法,还有留多法。 为啥只留一个?留俩、仨,行不行? 于是,就引申出多种交叉验证方法。 下面是百度百科上介绍的“十折交叉验证”。 ------------------------------------ 英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。 将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。 之所以选择将数据集分为10份,是因为通过利用大量数据集、使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点。但这并非最终诊断,争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。 ------------------------------------ 其中,多次10折交叉验证之说,对于留一法来说,就没有必要了。 最近有论文指出,交叉验证和Bootstrape方法不适合QSAR这种小样本的建模。 待俺走上前去,杀它个......PDF回来。 下面是Carnegie Mellon University的Andrew W. Moore教授关于交叉验证的PPT. |
11楼2009-02-12 21:37:53
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
13楼2009-02-12 22:25:36
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
15楼2009-02-12 23:16:27









回复此楼