24小时热门版块排行榜    

查看: 3140  |  回复: 19

kele1982

金虫 (正式写手)

[交流] 【求助】QSAR模型中交叉验证系数(q2)怎么获得?已有2人参与

请问我用逐步回归分析方法得到一个QSAR模型,但是结果里面没有交叉验证系数q2(英文叫: leave-one-out),请问怎么计算得到啊?谢谢
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

踏上科研不归路!
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★ ★ ★
yyx19840628(金币+2,VIP+0):谢谢 2-11 10:44
kele1982(金币+3,VIP+0):谢谢! 2-15 10:29
请给出一些细节.
如,用的什么软件?
还是自己编写程序?

训练集和测试集是怎么划分的?

Leave-one-out(LOO), 叫做留一法(当然,还有留N法)
训练集和测试集都要用到留一法。
3楼2009-02-11 10:14:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

抱歉抱歉,是俺老糊涂了。

★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks! 2-13 21:14
俺把留一法和留多法搞混淆了,因此造成误解。作揖。

你的q2计算法是正确的。

俺本来的意思,是想说除了留一法,还有留多法。
为啥只留一个?留俩、仨,行不行?
于是,就引申出多种交叉验证方法。

下面是百度百科上介绍的“十折交叉验证”。
------------------------------------
英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。

将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计

之所以选择将数据集分为10份,是因为通过利用大量数据集、使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点。但这并非最终诊断,争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。
------------------------------------

其中,多次10折交叉验证之说,对于留一法来说,就没有必要了。

最近有论文指出,交叉验证和Bootstrape方法不适合QSAR这种小样本的建模。
待俺走上前去,杀它个......PDF回来。

下面是Carnegie Mellon University的Andrew W. Moore教授关于交叉验证的PPT.
11楼2009-02-12 21:37:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

whitewatercn

银虫 (小有名气)

讨论得挺热闹啊

★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks! 2-13 21:17
所谓多模型共识,在计算机专业叫做”集成学习“(ensemble learning),什么 Bagging, Boosting,Random Forest 。。。都属于此类

另外一个常用的关键词是Consensus ,  如 Consensus Docking (Scoring) , Consensus QSAR (models).

多模型共识有两个重要原则: accurate and diverse
accurate 就是说各个模型都要比较准确,好模型+好模型=更好模型,好模型+差模型=中模型
diverse就是说各个模型的预测结果要有较大的差异性,这样才有可能互补。如果各个模型的误差是随机分布,那平均起来就抵消了,如果存在系统误差,则无法抵消。



集成学习在CS中已经有些年头了,但在化学中最近似乎比较热。没办法,要发文章就要炒作”新概念“,若干年以后,所有的泡沫都会消失,只剩下少数闪光的沉积物。。。。。
17楼2009-02-13 11:01:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

snoopyzhao

至尊木虫 (职业作家)


yyx19840628(金币+1,VIP+0):谢谢 2-11 10:44
根据 leave-one-out 的算法自己编程序算吧,如果你现在的统计程序不提供的话
2楼2009-02-11 08:43:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

snoopyzhao

至尊木虫 (职业作家)

引用回帖:
Originally posted by yalefield at 2009-2-11 10:14:
训练集和测试集是怎么划分的?

训练集和测试集都要用到留一法。

跟贴请教老汉两个问题:

1)通常训练集与测试集应该如何划分?

2)测试集如何用到留一法?我只知道对训练集使用留一法。

谢谢指教!
4楼2009-02-11 11:08:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★ ★ ★ ★ ★
xuefei06(金币+5,VIP+0):thanks! 2-11 22:47
kele1982(金币+2,VIP+0):谢谢! 2-15 10:30
(1)训练集与测试集的划分,本质上是一个实验设计问题。目前没有最好的,但D-optimal是一种选择。

(2)q2也好,R2也好,本质上其计算来自一组样本的观测值(或回归值)、平均值。
很明显,样本不同,这两个值肯定会变。

仅就含N个样本的训练集来说,采用LOO,即每次选9个样本(留下一个样本),那么就应该产生N个模型,也就有N个q2。

再看含有M个样本的测试集。

(1)如果只选择一个模型来预测,那么每个测试集样本都得到一个预测值。
        进一步,可以用这些预测值(与观测值、平均值一起),计算R2.
        可是,如果少选测试集中的一个样本,那么计算出来的R2是不是就变了?

(2)如果用前面的N个模型来预测,每个样本就会得到N个预测值。
       嘻嘻,那么.....
5楼2009-02-11 22:25:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

snoopyzhao

至尊木虫 (职业作家)

★ ★
gwdavid(金币+2,VIP+0):感谢交流 2-12 12:46
首先谢谢关于第一个问题的回答,我一直是用随机选择的方式来选,但总觉得有点儿不对劲儿,回头仔细看看您提到的 D-optimal
引用回帖:
Originally posted by yalefield at 2009-2-11 22:25:
仅就含N个样本的训练集来说,采用LOO,即每次选9个样本(留下一个样本),那么就应该产生N个模型,也就有N个q2。

这个,我不能理解。我的印象中,对于 N 个样本的训练集来说,采用 LOO,最终也只有一个 q2。

关于最后两点,我再体会一下。

或许一个数值的例子会更方便理解,呵呵……
6楼2009-02-12 10:16:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

留一法的问题,是留哪一个?那不如每个都留一次。
7楼2009-02-12 14:35:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

snoopyzhao

至尊木虫 (职业作家)

Loo 不就是每个都留一次吗?
8楼2009-02-12 14:55:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★
xuefei06(金币+3,VIP+0):thanks! 2-12 20:13
30个样本的训练集,每次留1个,用其余29个建模。
由于每次留的那一个是以前没有留过的,所以每次那29个也是一种新的组合。
而且,一共有30种组合。

每种组合都可以用来建模,那就有30个q2。

你有什么理由从这30个模型只要1个模型来预测训练集捏?
那就要看这30个q2的分布情况咯。

这就要求Consensus(共识)。
也就是要民主。
9楼2009-02-12 18:58:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

snoopyzhao

至尊木虫 (职业作家)

★ ★ ★ ★
xuefei06(金币+0,VIP+0):thanks! 2-12 20:13
yuhuobuku(金币+4,VIP+0):欢迎参加讨论 4-8 09:35
您这里所说的 q2 是如何计算的?

以您的贴子中的数据为例,29个数据建立了一个模型,然后用这个模型预测哪能个样本来获得 q2? 如果我没有理解错的话,应该用这个模型去预测被留在外面的那个样本,这样会获得一个预测值,当所有的被留在外面的样本都被预测后,会获得 30 个预测值,然后根据这 30 个预测值与 30 个样本数据来计算 q2。这就是我所说的 q2。似乎 SAS 给出的 q2 就是这样计算的。

您的意思是 29 个数据建立了一个模型,然后用这个模型去预测全部 30 个样本吗?这样会获得一个 q2。最后从 q2 的分布情况中选择一个模型来预测测试集?根据什么来选择呢?最大的?那么这个模型只有 29 个样本组成的啊,不是我们一开始划出的 30 个样本的模型啊?

谢谢!

到底是哪种情况?有没有可供参考的文献啊?
10楼2009-02-12 19:47:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 kele1982 的主题更新
普通表情 高级回复(可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[教师之家] +12 小木虫用户100号 2024-06-28 12/600 2024-06-30 23:19 by kanyechris
[教师之家] 佛山大学和深职大怎么选? +9 24601 2024-06-29 16/800 2024-06-30 19:16 by 24601
[访问学者] no news is good news +8 wyjecho666 2024-06-29 12/600 2024-06-30 13:49 by chang_jiang
[访问学者] 放榜是先短信还是先系统? +7 wyjecho666 2024-06-29 9/450 2024-06-30 00:04 by 南技院教师代表
[硕博家园] 博士该不该读? +14 L1009225316 2024-06-25 16/800 2024-06-29 15:33 by wwgl92
[基金申请] 感觉地区基金太难了,申请了多年不中 +24 123为wqw 2024-06-27 31/1550 2024-06-29 14:14 by Siuhong Yiu
[论文投稿] 求大佬们推荐一下与生物材料、骨修复主题相关见刊快的期刊 +3 莫咯老头 2024-06-24 4/200 2024-06-29 14:11 by 杨18354098226
[基金申请] 75批博后基金 +27 d1121345006 2024-06-28 38/1900 2024-06-28 19:40 by sizhouyi
[有机交流] 过柱子,产品,杂质在是 pe:ea=100:1 也一起出来? +6 w256 2024-06-25 6/300 2024-06-28 18:15 by 我想更懂你29
[基金申请] 博后面上今天下午会公布吗?大家有无消息? +11 地理学1995 2024-06-24 16/800 2024-06-28 14:54 by 地理学1995
[基金申请] 专科院校申请国自然 +18 孤单12站 2024-06-24 33/1650 2024-06-28 12:26 by sunjc
[基金申请] 第17批博士后特别资助名单 +7 grdsluyu 2024-06-27 7/350 2024-06-28 09:58 by 喵呜呜_c
[论文投稿] 论文润色 +3 自强不息a?a 2024-06-26 3/150 2024-06-28 01:23 by Cherry_1215
[考博] 论文被硕导卡 +6 自强不息a?a 2024-06-26 9/450 2024-06-27 21:37 by chemhua
[论文投稿] 为何全世界都用JCR分区,咱们要弄个中科院分区?意义何在? +6 意得辑_editage 2024-06-25 7/350 2024-06-27 20:59 by keyaner23
[基金申请] 基金评审时,评审专家还回去看申请人代表作之外的文章吗? +12 孤单12站 2024-06-26 18/900 2024-06-27 18:30 by 孤单12站
[有机交流] 脱酯基合成步骤 5+4 小辉灰@anhui 2024-06-25 8/400 2024-06-27 11:17 by 火龙骑士
[基金申请] 省基金对国自然申请是有利还是有弊 +6 zycumt04 2024-06-26 7/350 2024-06-26 15:02 by 潇湘之迷
[有机交流] 对苯乙烯磺酰氯的合成机理 10+3 该死的科研 2024-06-24 5/250 2024-06-25 17:30 by 王学士
[基金申请] 2024安徽省哲社立项名单公示 +3 robin_work 2024-06-24 6/300 2024-06-25 14:37 by Pickfoot
信息提示
请填处理意见