24小时热门版块排行榜    

查看: 3610  |  回复: 19
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

kele1982

金虫 (正式写手)

[交流] 【求助】QSAR模型中交叉验证系数(q2)怎么获得? 已有2人参与

请问我用逐步回归分析方法得到一个QSAR模型,但是结果里面没有交叉验证系数q2(英文叫: leave-one-out),请问怎么计算得到啊?谢谢
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

踏上科研不归路!
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★ ★ ★
yyx19840628(金币+2,VIP+0):谢谢 2-11 10:44
kele1982(金币+3,VIP+0):谢谢! 2-15 10:29
请给出一些细节.
如,用的什么软件?
还是自己编写程序?

训练集和测试集是怎么划分的?

Leave-one-out(LOO), 叫做留一法(当然,还有留N法)
训练集和测试集都要用到留一法。
3楼2009-02-11 10:14:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★ ★ ★ ★ ★
xuefei06(金币+5,VIP+0):thanks! 2-11 22:47
kele1982(金币+2,VIP+0):谢谢! 2-15 10:30
(1)训练集与测试集的划分,本质上是一个实验设计问题。目前没有最好的,但D-optimal是一种选择。

(2)q2也好,R2也好,本质上其计算来自一组样本的观测值(或回归值)、平均值。
很明显,样本不同,这两个值肯定会变。

仅就含N个样本的训练集来说,采用LOO,即每次选9个样本(留下一个样本),那么就应该产生N个模型,也就有N个q2。

再看含有M个样本的测试集。

(1)如果只选择一个模型来预测,那么每个测试集样本都得到一个预测值。
        进一步,可以用这些预测值(与观测值、平均值一起),计算R2.
        可是,如果少选测试集中的一个样本,那么计算出来的R2是不是就变了?

(2)如果用前面的N个模型来预测,每个样本就会得到N个预测值。
       嘻嘻,那么.....
5楼2009-02-11 22:25:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

留一法的问题,是留哪一个?那不如每个都留一次。
7楼2009-02-12 14:35:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★
xuefei06(金币+3,VIP+0):thanks! 2-12 20:13
30个样本的训练集,每次留1个,用其余29个建模。
由于每次留的那一个是以前没有留过的,所以每次那29个也是一种新的组合。
而且,一共有30种组合。

每种组合都可以用来建模,那就有30个q2。

你有什么理由从这30个模型只要1个模型来预测训练集捏?
那就要看这30个q2的分布情况咯。

这就要求Consensus(共识)。
也就是要民主。
9楼2009-02-12 18:58:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

抱歉抱歉,是俺老糊涂了。

★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks! 2-13 21:14
俺把留一法和留多法搞混淆了,因此造成误解。作揖。

你的q2计算法是正确的。

俺本来的意思,是想说除了留一法,还有留多法。
为啥只留一个?留俩、仨,行不行?
于是,就引申出多种交叉验证方法。

下面是百度百科上介绍的“十折交叉验证”。
------------------------------------
英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。

将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计

之所以选择将数据集分为10份,是因为通过利用大量数据集、使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点。但这并非最终诊断,争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。
------------------------------------

其中,多次10折交叉验证之说,对于留一法来说,就没有必要了。

最近有论文指出,交叉验证和Bootstrape方法不适合QSAR这种小样本的建模。
待俺走上前去,杀它个......PDF回来。

下面是Carnegie Mellon University的Andrew W. Moore教授关于交叉验证的PPT.
11楼2009-02-12 21:37:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★
xuefei06(金币+3,VIP+0):thanks! 2-13 21:17
搞训练集是为了模型能自圆其说
搞测试集是为了模型能普渡众生

q2是训练集自身质量的标志(之一)
R2是看由训练集得出的模型,在测试集上试用的效果如何(的标志之一)。

现在,多模型共识,就是q2/R2都很好的多个模型共同预测。

那篇论文,俺得去老巢找......
13楼2009-02-12 22:25:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

关于模型共识

★ ★
xuefei06(金币+2,VIP+0):thanks! 2-13 21:17
QSAR领域的几个家伙都跃跃欲试。
不过,俺看最后还得是东欧或者北欧血统的搞到前面。
这帮家伙,数学的确很强。
PCA, PLS, SIMCA......都来自他们。
15楼2009-02-12 23:16:27
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 kele1982 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见