版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

kele1982

金虫 (正式写手)

应助: 3 (幼儿园)
金币: 1035.8
散金: 320
帖子: 342
在线: 29.2小时
虫号: 568345
注册: 2008-06-03
性别: MM
专业: 生化分析及生物传感

[交流] 【求助】QSAR模型中交叉验证系数（q2）怎么获得？已有2人参与

请问我用逐步回归分析方法得到一个QSAR模型，但是结果里面没有交叉验证系数q2（英文叫: leave-one-out），请问怎么计算得到啊？谢谢

回复此楼

» 猜你喜欢

汕头大学化学招调剂，相关内容如下。已经有4人回复
大湾区大学（筹）刘天辉课题组招收博士生（与中山大学物理学院联合培养）已经有16人回复
物理化学论文润色/翻译怎么收费? 已经有172人回复
PbS量子点如何确定浓度已经有11人回复
大湾区大学刘天辉课题组招收2026级博士生（与中山大学物理学院联合培养）已经有22人回复
PbS量子点紫外吸收已经有0人回复
比利时鲁汶大学与国家留学基金委共同资助博士研究生CSC-KU Leuven PhD Scholarship 已经有0人回复
七嗪类物质合成求助已经有0人回复
半透性容器进行高湿或者低湿研究已经有0人回复
伦敦大学学院Benjamin Moss博士招收人工智能、原位光谱、催化相关26年博士生已经有11人回复
中国科学院成都山地灾害与环境研究所2026年特别研究助理（博士后）招聘启事已经有0人回复

» 本主题相关价值贴推荐，对您同样有帮助:

踏上科研不归路！

1楼 2009-02-11 08:04:02

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

回帖支持 ( 显示支持度最高的前 50 名 )

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

★ ★ ★ ★ ★
yyx19840628(金币+2,VIP+0):谢谢 2-11 10:44
kele1982(金币+3,VIP+0):谢谢！ 2-15 10:29

请给出一些细节.
如,用的什么软件?
还是自己编写程序？

训练集和测试集是怎么划分的?

Leave-one-out(LOO), 叫做留一法（当然，还有留N法）
训练集和测试集都要用到留一法。

赞一下(8人)

回复此楼

3楼2009-02-11 10:14:07

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

抱歉抱歉，是俺老糊涂了。

★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks！ 2-13 21:14

俺把留一法和留多法搞混淆了，因此造成误解。作揖。

你的q2计算法是正确的。

俺本来的意思，是想说除了留一法，还有留多法。
为啥只留一个？留俩、仨，行不行？
于是，就引申出多种交叉验证方法。

下面是百度百科上介绍的“十折交叉验证”。
------------------------------------
英文名叫做10-fold cross-validation，用来测试算法准确性。是常用的测试方法。

将数据集分成十分，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证（例如10次10折交叉验证），再求其均值，作为对算法准确性的估计。

之所以选择将数据集分为10份，是因为通过利用大量数据集、使用不同学习技术进行的大量试验，表明10折是获得最好误差估计的恰当选择，而且也有一些理论根据可以证明这一点。但这并非最终诊断，争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。
------------------------------------

其中，多次10折交叉验证之说，对于留一法来说，就没有必要了。

最近有论文指出，交叉验证和Bootstrape方法不适合QSAR这种小样本的建模。
待俺走上前去，杀它个......PDF回来。

下面是Carnegie Mellon University的Andrew W. Moore教授关于交叉验证的PPT.

赞一下(11人)

回复此楼

11楼2009-02-12 21:37:53

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

whitewatercn

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 199.8
红花: 2
帖子: 245
在线: 10.3小时
虫号: 210802
注册: 2006-03-07
性别: GG
专业: 化学信息学、药物设计

讨论得挺热闹啊

★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks！ 2-13 21:17

所谓多模型共识，在计算机专业叫做”集成学习“（ensemble learning），什么 Bagging, Boosting，Random Forest 。。。都属于此类

另外一个常用的关键词是Consensus , 如 Consensus Docking (Scoring) , Consensus QSAR (models).

多模型共识有两个重要原则： accurate and diverse
accurate 就是说各个模型都要比较准确，好模型＋好模型＝更好模型，好模型＋差模型＝中模型
diverse就是说各个模型的预测结果要有较大的差异性，这样才有可能互补。如果各个模型的误差是随机分布，那平均起来就抵消了，如果存在系统误差，则无法抵消。

集成学习在CS中已经有些年头了，但在化学中最近似乎比较热。没办法，要发文章就要炒作”新概念“，若干年以后，所有的泡沫都会消失，只剩下少数闪光的沉积物。。。。。

赞一下(11人)

回复此楼

17楼2009-02-13 11:01:25

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

普通回帖

snoopyzhao

至尊木虫 (职业作家)

QC强帖: 1
应助: 157 (高中生)
贵宾: 0.02
金币: 18844.7
红花: 29
帖子: 3803
在线: 1422.4小时
虫号: 183750
注册: 2006-02-13
专业: 污染生态化学

★
yyx19840628(金币+1,VIP+0):谢谢 2-11 10:44

根据 leave-one-out 的算法自己编程序算吧，如果你现在的统计程序不提供的话

赞一下(6人)

回复此楼

2楼2009-02-11 08:43:59

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

snoopyzhao

至尊木虫 (职业作家)

QC强帖: 1
应助: 157 (高中生)
贵宾: 0.02
金币: 18844.7
红花: 29
帖子: 3803
在线: 1422.4小时
虫号: 183750
注册: 2006-02-13
专业: 污染生态化学

引用回帖:

Originally posted by yalefield at 2009-2-11 10:14:
训练集和测试集是怎么划分的?

训练集和测试集都要用到留一法。

跟贴请教老汉两个问题：

1）通常训练集与测试集应该如何划分？

2）测试集如何用到留一法？我只知道对训练集使用留一法。

谢谢指教！

赞一下

回复此楼

4楼2009-02-11 11:08:07

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

★ ★ ★ ★ ★ ★ ★
xuefei06(金币+5,VIP+0):thanks！ 2-11 22:47
kele1982(金币+2,VIP+0):谢谢！ 2-15 10:30

（1）训练集与测试集的划分，本质上是一个实验设计问题。目前没有最好的，但D-optimal是一种选择。

（2）q2也好，R2也好，本质上其计算来自一组样本的观测值（或回归值）、平均值。
很明显，样本不同，这两个值肯定会变。

仅就含N个样本的训练集来说，采用LOO，即每次选9个样本（留下一个样本），那么就应该产生N个模型，也就有N个q2。

再看含有M个样本的测试集。

（1）如果只选择一个模型来预测，那么每个测试集样本都得到一个预测值。
      进一步，可以用这些预测值（与观测值、平均值一起），计算R2.
      可是，如果少选测试集中的一个样本，那么计算出来的R2是不是就变了？

（2）如果用前面的N个模型来预测，每个样本就会得到N个预测值。
   嘻嘻，那么.....

赞一下(10人)

回复此楼

5楼2009-02-11 22:25:21

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

snoopyzhao

至尊木虫 (职业作家)

QC强帖: 1
应助: 157 (高中生)
贵宾: 0.02
金币: 18844.7
红花: 29
帖子: 3803
在线: 1422.4小时
虫号: 183750
注册: 2006-02-13
专业: 污染生态化学

★ ★
gwdavid(金币+2,VIP+0):感谢交流 2-12 12:46

首先谢谢关于第一个问题的回答，我一直是用随机选择的方式来选，但总觉得有点儿不对劲儿，回头仔细看看您提到的 D-optimal

引用回帖:

Originally posted by yalefield at 2009-2-11 22:25:
仅就含N个样本的训练集来说，采用LOO，即每次选9个样本（留下一个样本），那么就应该产生N个模型，也就有N个q2。

这个，我不能理解。我的印象中，对于 N 个样本的训练集来说，采用 LOO，最终也只有一个 q2。

关于最后两点，我再体会一下。

或许一个数值的例子会更方便理解，呵呵……

赞一下(10人)

回复此楼

6楼2009-02-12 10:16:02

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

留一法的问题，是留哪一个？那不如每个都留一次。

赞一下

回复此楼

7楼2009-02-12 14:35:14

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

snoopyzhao

至尊木虫 (职业作家)

QC强帖: 1
应助: 157 (高中生)
贵宾: 0.02
金币: 18844.7
红花: 29
帖子: 3803
在线: 1422.4小时
虫号: 183750
注册: 2006-02-13
专业: 污染生态化学

Loo 不就是每个都留一次吗？

赞一下

回复此楼

8楼2009-02-12 14:55:00

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

QC强帖: 1
应助: 129 (高中生)
贵宾: 0.17
金币: 21238.9
散金: 3440
红花: 66
帖子: 12101
在线: 759.1小时
虫号: 96063
注册: 2005-10-07
专业: 高等教育学
管辖: 计算模拟

★ ★ ★
xuefei06(金币+3,VIP+0):thanks！ 2-12 20:13

30个样本的训练集，每次留1个，用其余29个建模。
由于每次留的那一个是以前没有留过的，所以每次那29个也是一种新的组合。
而且，一共有30种组合。

每种组合都可以用来建模，那就有30个q2。

你有什么理由从这30个模型只要1个模型来预测训练集捏？
那就要看这30个q2的分布情况咯。

这就要求Consensus（共识）。
也就是要民主。

赞一下(10人)

回复此楼

9楼2009-02-12 18:58:57

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

snoopyzhao

至尊木虫 (职业作家)

QC强帖: 1
应助: 157 (高中生)
贵宾: 0.02
金币: 18844.7
红花: 29
帖子: 3803
在线: 1422.4小时
虫号: 183750
注册: 2006-02-13
专业: 污染生态化学

★ ★ ★ ★
xuefei06(金币+0,VIP+0):thanks！ 2-12 20:13
yuhuobuku(金币+4,VIP+0):欢迎参加讨论 4-8 09:35

您这里所说的 q2 是如何计算的？

以您的贴子中的数据为例，29个数据建立了一个模型，然后用这个模型预测哪能个样本来获得 q2? 如果我没有理解错的话，应该用这个模型去预测被留在外面的那个样本，这样会获得一个预测值，当所有的被留在外面的样本都被预测后，会获得 30 个预测值，然后根据这 30 个预测值与 30 个样本数据来计算 q2。这就是我所说的 q2。似乎 SAS 给出的 q2 就是这样计算的。

您的意思是 29 个数据建立了一个模型，然后用这个模型去预测全部 30 个样本吗？这样会获得一个 q2。最后从 q2 的分布情况中选择一个模型来预测测试集？根据什么来选择呢？最大的？那么这个模型只有 29 个样本组成的啊，不是我们一开始划出的 30 个样本的模型啊？

谢谢！

到底是哪种情况？有没有可供参考的文献啊？

赞一下(16人)

回复此楼

10楼2009-02-12 19:47:08

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 kele1982 的主题更新

返回列表

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[硕博家园] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	8rmuugja8q 2026-02-22	7/350	2026-02-23 09:44 by w4l55oybr1
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	khieu8v8m0 2026-02-22	8/400	2026-02-23 09:35 by w4l55oybr1
[论文投稿] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	khieu8v8m0 2026-02-22	8/400	2026-02-23 09:29 by w4l55oybr1
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +5	usprnugpzw 2026-02-21	11/550	2026-02-23 09:24 by w4l55oybr1
[教师之家] 为什么中国大学工科教授们水了那么多所谓的顶会顶刊，但还是做不出宇树机器人？ +5	欢乐颂叶蓁 2026-02-21	8/400	2026-02-23 09:19 by 欢乐颂叶蓁
[论文投稿] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	w89i99eaeh 2026-02-22	5/250	2026-02-23 08:04 by w4l55oybr1
[博后之家] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	khieu8v8m0 2026-02-22	6/300	2026-02-23 07:59 by w4l55oybr1
[考博] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	khieu8v8m0 2026-02-22	4/200	2026-02-23 06:46 by jsjzfl
[公派出国] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	khieu8v8m0 2026-02-22	5/250	2026-02-23 06:29 by w4l55oybr1
[硕博家园] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	khieu8v8m0 2026-02-22	8/400	2026-02-23 06:24 by w4l55oybr1
[考博] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +5	3dfhjxgsh7 2026-02-22	6/300	2026-02-23 02:04 by 5jlh3qtdvx
[教师之家] 版面费该交吗 +7	苹果在哪里 2026-02-22	8/400	2026-02-22 22:37 by otani
[基金申请] 基金正文30页指的是报告正文还是整个申请书 +5	successhe 2026-02-16	6/300	2026-02-22 21:38 by 山西悬空寺空悬�
[基金申请] 面上可以超过30页吧？ +4	阿拉贡aragon 2026-02-22	4/200	2026-02-22 21:22 by 山西悬空寺空悬�
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	3dfhjxgsh7 2026-02-22	4/200	2026-02-22 16:52 by khieu8v8m0
[公派出国] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	usprnugpzw 2026-02-21	4/200	2026-02-22 16:27 by khieu8v8m0
[基金申请] “人文社科而论，许多学术研究还没有达到民国时期的水平” +4	苏东坡二世 2026-02-18	5/250	2026-02-22 16:07 by liangep1573
[基金申请] 什么是人一生最重要的？ +4	瞬息宇宙 2026-02-21	4/200	2026-02-22 11:44 by huagongfeihu
[基金申请] 今年春晚有几个节目很不错，点赞！ +11	瞬息宇宙 2026-02-16	12/600	2026-02-21 21:14 by lq493392203
[基金申请] 体制内长辈说体制内绝大部分一辈子在底层，如同你们一样大部分普通教师忙且收入低 +9	瞬息宇宙 2026-02-20	12/600	2026-02-21 10:39 by 欢乐颂叶蓁

24小时热门版块排行榜

[交流] 【求助】QSAR模型中交叉验证系数（q2）怎么获得？ 已有2人参与

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

抱歉抱歉，是俺老糊涂了。

讨论得挺热闹啊

[交流] 【求助】QSAR模型中交叉验证系数（q2）怎么获得？已有2人参与