| 查看: 3713 | 回复: 19 | |||
kele1982金虫 (正式写手)
|
[交流]
【求助】QSAR模型中交叉验证系数(q2)怎么获得? 已有2人参与
|
||
| 请问我用逐步回归分析方法得到一个QSAR模型,但是结果里面没有交叉验证系数q2(英文叫: leave-one-out),请问怎么计算得到啊?谢谢 |
» 猜你喜欢
东方理-中科大联合博士生招聘
已经有0人回复
钴酸锂半电池小倍率容量上不去
已经有1人回复
物理化学论文润色/翻译怎么收费?
已经有106人回复
吉林大学材料物理本科生求问调剂信息
已经有24人回复
2026第二届光电子与半导体器件前沿技术研讨会——光电子赋能·半导体创芯!
已经有1人回复
光电子赋能·半导体创芯!
已经有1人回复
光电子赋能·半导体创芯!
已经有0人回复
Chemical Bonding at Surfaces and Interfaces,最经典的一本表面上化学相互作用教材
已经有0人回复
QE计算电声耦合的时候报错Error in routine lambda (100)wrong or too many modes
已经有2人回复
cif求助下载
已经有1人回复
高效微纳米储能材料与产业化推进实验室 苏州 招收硕士研究生(含调剂)
已经有2人回复
» 本主题相关价值贴推荐,对您同样有帮助:
关于质谱方法学验证的项目和做法
已经有16人回复
有适合化工与微生物交叉的研究课题
已经有15人回复
QSAR中分集的问题
已经有8人回复
Sybyl 3D-QSAR Q^2为负
已经有16人回复
关于李仁利和QSAR
已经有4人回复
交叉验证相关系数q方和相关系数R方
已经有14人回复
【讨论】做QSAR时训练集和测试集的划分问题
已经有5人回复
【求助】交叉验证相关系数
已经有5人回复
【求助】请教用DS做3D-QSAR问题
已经有11人回复
【求助】QSAR求助,有关参数查找
已经有4人回复
【求助】三维定量构效关系(3D-QSAR) 软件多少钱?
已经有10人回复

yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
3楼2009-02-11 10:14:07
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
抱歉抱歉,是俺老糊涂了。
★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks! 2-13 21:14
xuefei06(金币+4,VIP+0):thanks! 2-13 21:14
|
俺把留一法和留多法搞混淆了,因此造成误解。作揖。 你的q2计算法是正确的。 俺本来的意思,是想说除了留一法,还有留多法。 为啥只留一个?留俩、仨,行不行? 于是,就引申出多种交叉验证方法。 下面是百度百科上介绍的“十折交叉验证”。 ------------------------------------ 英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。 将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。 之所以选择将数据集分为10份,是因为通过利用大量数据集、使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点。但这并非最终诊断,争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。 ------------------------------------ 其中,多次10折交叉验证之说,对于留一法来说,就没有必要了。 最近有论文指出,交叉验证和Bootstrape方法不适合QSAR这种小样本的建模。 待俺走上前去,杀它个......PDF回来。 下面是Carnegie Mellon University的Andrew W. Moore教授关于交叉验证的PPT. |
11楼2009-02-12 21:37:53
whitewatercn
银虫 (小有名气)
- 应助: 0 (幼儿园)
- 金币: 199.8
- 红花: 2
- 帖子: 245
- 在线: 10.3小时
- 虫号: 210802
- 注册: 2006-03-07
- 性别: GG
- 专业: 化学信息学、药物设计
讨论得挺热闹啊
★ ★ ★ ★
xuefei06(金币+4,VIP+0):thanks! 2-13 21:17
xuefei06(金币+4,VIP+0):thanks! 2-13 21:17
|
所谓多模型共识,在计算机专业叫做”集成学习“(ensemble learning),什么 Bagging, Boosting,Random Forest 。。。都属于此类 另外一个常用的关键词是Consensus , 如 Consensus Docking (Scoring) , Consensus QSAR (models). 多模型共识有两个重要原则: accurate and diverse accurate 就是说各个模型都要比较准确,好模型+好模型=更好模型,好模型+差模型=中模型 diverse就是说各个模型的预测结果要有较大的差异性,这样才有可能互补。如果各个模型的误差是随机分布,那平均起来就抵消了,如果存在系统误差,则无法抵消。 集成学习在CS中已经有些年头了,但在化学中最近似乎比较热。没办法,要发文章就要炒作”新概念“,若干年以后,所有的泡沫都会消失,只剩下少数闪光的沉积物。。。。。 |
17楼2009-02-13 11:01:25
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
2楼2009-02-11 08:43:59
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
4楼2009-02-11 11:08:07
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
★ ★ ★ ★ ★ ★ ★
xuefei06(金币+5,VIP+0):thanks! 2-11 22:47
kele1982(金币+2,VIP+0):谢谢! 2-15 10:30
xuefei06(金币+5,VIP+0):thanks! 2-11 22:47
kele1982(金币+2,VIP+0):谢谢! 2-15 10:30
|
(1)训练集与测试集的划分,本质上是一个实验设计问题。目前没有最好的,但D-optimal是一种选择。 (2)q2也好,R2也好,本质上其计算来自一组样本的观测值(或回归值)、平均值。 很明显,样本不同,这两个值肯定会变。 仅就含N个样本的训练集来说,采用LOO,即每次选9个样本(留下一个样本),那么就应该产生N个模型,也就有N个q2。 再看含有M个样本的测试集。 (1)如果只选择一个模型来预测,那么每个测试集样本都得到一个预测值。 进一步,可以用这些预测值(与观测值、平均值一起),计算R2. 可是,如果少选测试集中的一个样本,那么计算出来的R2是不是就变了? (2)如果用前面的N个模型来预测,每个样本就会得到N个预测值。 嘻嘻,那么..... |
5楼2009-02-11 22:25:21
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
6楼2009-02-12 10:16:02
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
7楼2009-02-12 14:35:14
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
8楼2009-02-12 14:55:00
yalefield
金虫 (文坛精英)
老汉一枚
- QC强帖: 1
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
9楼2009-02-12 18:58:57
snoopyzhao
至尊木虫 (职业作家)
- QC强帖: 1
- 应助: 157 (高中生)
- 贵宾: 0.02
- 金币: 18844.7
- 红花: 29
- 帖子: 3803
- 在线: 1422.4小时
- 虫号: 183750
- 注册: 2006-02-13
- 专业: 污染生态化学
★ ★ ★ ★
xuefei06(金币+0,VIP+0):thanks! 2-12 20:13
yuhuobuku(金币+4,VIP+0):欢迎参加讨论 4-8 09:35
xuefei06(金币+0,VIP+0):thanks! 2-12 20:13
yuhuobuku(金币+4,VIP+0):欢迎参加讨论 4-8 09:35
|
您这里所说的 q2 是如何计算的? 以您的贴子中的数据为例,29个数据建立了一个模型,然后用这个模型预测哪能个样本来获得 q2? 如果我没有理解错的话,应该用这个模型去预测被留在外面的那个样本,这样会获得一个预测值,当所有的被留在外面的样本都被预测后,会获得 30 个预测值,然后根据这 30 个预测值与 30 个样本数据来计算 q2。这就是我所说的 q2。似乎 SAS 给出的 q2 就是这样计算的。 您的意思是 29 个数据建立了一个模型,然后用这个模型去预测全部 30 个样本吗?这样会获得一个 q2。最后从 q2 的分布情况中选择一个模型来预测测试集?根据什么来选择呢?最大的?那么这个模型只有 29 个样本组成的啊,不是我们一开始划出的 30 个样本的模型啊? 谢谢! 到底是哪种情况?有没有可供参考的文献啊? |
10楼2009-02-12 19:47:08













回复此楼