版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

当前只显示满足指定条件的回帖，点击这里查看本话题的所有回帖

kele1982

金虫 (正式写手)

应助: 3 (幼儿园)
金币: 1035.8
散金: 320
帖子: 342
在线: 29.2小时
虫号: 568345
注册: 2008-06-03
性别: MM
专业: 生化分析及生物传感

[交流] 【求助】QSAR模型中交叉验证系数（q2）怎么获得？已有2人参与

请问我用逐步回归分析方法得到一个QSAR模型，但是结果里面没有交叉验证系数q2（英文叫: leave-one-out），请问怎么计算得到啊？谢谢

回复此楼

» 猜你喜欢

085404（计算机技术）293分希望调剂到材料相关专业已经有0人回复
大湾区大学（筹）刘天辉课题组招收博士生（与中山大学物理学院联合培养）已经有16人回复
物理化学论文润色/翻译怎么收费? 已经有250人回复
PbS量子点如何确定浓度已经有11人回复
大湾区大学刘天辉课题组招收2026级博士生（与中山大学物理学院联合培养）已经有22人回复
PbS量子点紫外吸收已经有0人回复
比利时鲁汶大学与国家留学基金委共同资助博士研究生CSC-KU Leuven PhD Scholarship 已经有0人回复
七嗪类物质合成求助已经有0人回复
伦敦大学学院Benjamin Moss博士招收人工智能、原位光谱、催化相关26年博士生已经有11人回复

» 本主题相关价值贴推荐，对您同样有帮助:

踏上科研不归路！

1楼 2009-02-11 08:04:02

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

★ ★ ★ ★ ★
yyx19840628(金币+2,VIP+0):谢谢 2-11 10:44
kele1982(金币+3,VIP+0):谢谢！ 2-15 10:29

请给出一些细节.
如,用的什么软件?
还是自己编写程序？

训练集和测试集是怎么划分的?

Leave-one-out(LOO), 叫做留一法（当然，还有留N法）
训练集和测试集都要用到留一法。

赞一下(8人)

回复此楼

3楼2009-02-11 10:14:07

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

★ ★ ★ ★ ★ ★ ★
xuefei06(金币+5,VIP+0):thanks！ 2-11 22:47
kele1982(金币+2,VIP+0):谢谢！ 2-15 10:30

（1）训练集与测试集的划分，本质上是一个实验设计问题。目前没有最好的，但D-optimal是一种选择。

（2）q2也好，R2也好，本质上其计算来自一组样本的观测值（或回归值）、平均值。
很明显，样本不同，这两个值肯定会变。

仅就含N个样本的训练集来说，采用LOO，即每次选9个样本（留下一个样本），那么就应该产生N个模型，也就有N个q2。

再看含有M个样本的测试集。

（1）如果只选择一个模型来预测，那么每个测试集样本都得到一个预测值。
      进一步，可以用这些预测值（与观测值、平均值一起），计算R2.
      可是，如果少选测试集中的一个样本，那么计算出来的R2是不是就变了？

（2）如果用前面的N个模型来预测，每个样本就会得到N个预测值。
   嘻嘻，那么.....

赞一下(10人)

回复此楼

5楼2009-02-11 22:25:21

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

留一法的问题，是留哪一个？那不如每个都留一次。

赞一下

回复此楼

7楼2009-02-12 14:35:14

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

★ ★ ★
xuefei06(金币+3,VIP+0):thanks！ 2-12 20:13

30个样本的训练集，每次留1个，用其余29个建模。
由于每次留的那一个是以前没有留过的，所以每次那29个也是一种新的组合。
而且，一共有30种组合。

每种组合都可以用来建模，那就有30个q2。

你有什么理由从这30个模型只要1个模型来预测训练集捏？
那就要看这30个q2的分布情况咯。

这就要求Consensus（共识）。
也就是要民主。

赞一下(10人)

回复此楼

9楼2009-02-12 18:58:57

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

抱歉抱歉，是俺老糊涂了。

★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks！ 2-13 21:14

俺把留一法和留多法搞混淆了，因此造成误解。作揖。

你的q2计算法是正确的。

俺本来的意思，是想说除了留一法，还有留多法。
为啥只留一个？留俩、仨，行不行？
于是，就引申出多种交叉验证方法。

下面是百度百科上介绍的“十折交叉验证”。
------------------------------------
英文名叫做10-fold cross-validation，用来测试算法准确性。是常用的测试方法。

将数据集分成十分，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证（例如10次10折交叉验证），再求其均值，作为对算法准确性的估计。

之所以选择将数据集分为10份，是因为通过利用大量数据集、使用不同学习技术进行的大量试验，表明10折是获得最好误差估计的恰当选择，而且也有一些理论根据可以证明这一点。但这并非最终诊断，争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。
------------------------------------

其中，多次10折交叉验证之说，对于留一法来说，就没有必要了。

最近有论文指出，交叉验证和Bootstrape方法不适合QSAR这种小样本的建模。
待俺走上前去，杀它个......PDF回来。

下面是Carnegie Mellon University的Andrew W. Moore教授关于交叉验证的PPT.

赞一下(11人)

回复此楼

11楼2009-02-12 21:37:53

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖