| 查看: 3575 | 回复: 19 | |||
kele1982金虫 (正式写手)
|
[交流]
【求助】QSAR模型中交叉验证系数(q2)怎么获得?已有2人参与
|
||
| 请问我用逐步回归分析方法得到一个QSAR模型,但是结果里面没有交叉验证系数q2(英文叫: leave-one-out),请问怎么计算得到啊?谢谢 |
» 猜你喜欢
华南师范大学先进光电子研究院电子纸团队诚聘2026级博士研究生
已经有0人回复
QE利用声子计算的一系列lambda和Tc如何选
已经有8人回复
物理化学论文润色/翻译怎么收费?
已经有89人回复
理论计算合作
已经有2人回复
小木虫的论文辅导靠谱吗?有没有用过的同学?
已经有1人回复
QE计算声子ph.out的Γ点出现虚频(-30cm-1)vasp计算没有
已经有0人回复
40-50万/年,中国散裂中子源诚聘计算模拟方向博士后
已经有81人回复
书籍求助:汽车市场营销理论与实务(电子版)——章小平
已经有0人回复
东方理-中科大联合博士生招聘
已经有0人回复
半透性容器进行高湿或者低湿研究
已经有0人回复
» 本主题相关价值贴推荐,对您同样有帮助:
关于质谱方法学验证的项目和做法
已经有16人回复
有适合化工与微生物交叉的研究课题
已经有15人回复
QSAR中分集的问题
已经有8人回复
Sybyl 3D-QSAR Q^2为负
已经有16人回复
关于李仁利和QSAR
已经有4人回复
交叉验证相关系数q方和相关系数R方
已经有14人回复
【讨论】做QSAR时训练集和测试集的划分问题
已经有5人回复
【求助】交叉验证相关系数
已经有5人回复
【求助】请教用DS做3D-QSAR问题
已经有11人回复
【求助】QSAR求助,有关参数查找
已经有4人回复
【求助】三维定量构效关系(3D-QSAR) 软件多少钱?
已经有10人回复

yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
3楼2009-02-11 10:14:07
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
抱歉抱歉,是俺老糊涂了。
★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks! 2-13 21:14
xuefei06(金币+4,VIP+0):thanks! 2-13 21:14
|
俺把留一法和留多法搞混淆了,因此造成误解。作揖。 你的q2计算法是正确的。 俺本来的意思,是想说除了留一法,还有留多法。 为啥只留一个?留俩、仨,行不行? 于是,就引申出多种交叉验证方法。 下面是百度百科上介绍的“十折交叉验证”。 ------------------------------------ 英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。 将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。 之所以选择将数据集分为10份,是因为通过利用大量数据集、使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点。但这并非最终诊断,争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。 ------------------------------------ 其中,多次10折交叉验证之说,对于留一法来说,就没有必要了。 最近有论文指出,交叉验证和Bootstrape方法不适合QSAR这种小样本的建模。 待俺走上前去,杀它个......PDF回来。 下面是Carnegie Mellon University的Andrew W. Moore教授关于交叉验证的PPT. |
11楼2009-02-12 21:37:53
whitewatercn
银虫 (小有名气)
- 应助: 0 (幼儿园)
- 金币: 199.8
- 红花: 2
- 帖子: 245
- 在线: 10.3小时
- 虫号: 210802
- 注册: 2006-03-07
- 性别: GG
- 专业: 化学信息学、药物设计
讨论得挺热闹啊
★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks! 2-13 21:17
xuefei06(金币+4,VIP+0):thanks! 2-13 21:17
|
所谓多模型共识,在计算机专业叫做”集成学习“(ensemble learning),什么 Bagging, Boosting,Random Forest 。。。都属于此类 另外一个常用的关键词是Consensus , 如 Consensus Docking (Scoring) , Consensus QSAR (models). 多模型共识有两个重要原则: accurate and diverse accurate 就是说各个模型都要比较准确,好模型+好模型=更好模型,好模型+差模型=中模型 diverse就是说各个模型的预测结果要有较大的差异性,这样才有可能互补。如果各个模型的误差是随机分布,那平均起来就抵消了,如果存在系统误差,则无法抵消。 集成学习在CS中已经有些年头了,但在化学中最近似乎比较热。没办法,要发文章就要炒作”新概念“,若干年以后,所有的泡沫都会消失,只剩下少数闪光的沉积物。。。。。 |
17楼2009-02-13 11:01:25
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
2楼2009-02-11 08:43:59
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
4楼2009-02-11 11:08:07
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
★ ★ ★ ★ ★ ★ ★
xuefei06(金币+5,VIP+0):thanks! 2-11 22:47
kele1982(金币+2,VIP+0):谢谢! 2-15 10:30
xuefei06(金币+5,VIP+0):thanks! 2-11 22:47
kele1982(金币+2,VIP+0):谢谢! 2-15 10:30
|
(1)训练集与测试集的划分,本质上是一个实验设计问题。目前没有最好的,但D-optimal是一种选择。 (2)q2也好,R2也好,本质上其计算来自一组样本的观测值(或回归值)、平均值。 很明显,样本不同,这两个值肯定会变。 仅就含N个样本的训练集来说,采用LOO,即每次选9个样本(留下一个样本),那么就应该产生N个模型,也就有N个q2。 再看含有M个样本的测试集。 (1)如果只选择一个模型来预测,那么每个测试集样本都得到一个预测值。 进一步,可以用这些预测值(与观测值、平均值一起),计算R2. 可是,如果少选测试集中的一个样本,那么计算出来的R2是不是就变了? (2)如果用前面的N个模型来预测,每个样本就会得到N个预测值。 嘻嘻,那么..... |
5楼2009-02-11 22:25:21
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
6楼2009-02-12 10:16:02
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
7楼2009-02-12 14:35:14
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
8楼2009-02-12 14:55:00
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
9楼2009-02-12 18:58:57
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
★ ★ ★ ★
xuefei06(金币+0,VIP+0):thanks! 2-12 20:13
yuhuobuku(金币+4,VIP+0):欢迎参加讨论 4-8 09:35
xuefei06(金币+0,VIP+0):thanks! 2-12 20:13
yuhuobuku(金币+4,VIP+0):欢迎参加讨论 4-8 09:35
|
您这里所说的 q2 是如何计算的? 以您的贴子中的数据为例,29个数据建立了一个模型,然后用这个模型预测哪能个样本来获得 q2? 如果我没有理解错的话,应该用这个模型去预测被留在外面的那个样本,这样会获得一个预测值,当所有的被留在外面的样本都被预测后,会获得 30 个预测值,然后根据这 30 个预测值与 30 个样本数据来计算 q2。这就是我所说的 q2。似乎 SAS 给出的 q2 就是这样计算的。 您的意思是 29 个数据建立了一个模型,然后用这个模型去预测全部 30 个样本吗?这样会获得一个 q2。最后从 q2 的分布情况中选择一个模型来预测测试集?根据什么来选择呢?最大的?那么这个模型只有 29 个样本组成的啊,不是我们一开始划出的 30 个样本的模型啊? 谢谢! 到底是哪种情况?有没有可供参考的文献啊? |
10楼2009-02-12 19:47:08













回复此楼