24小时热门版块排行榜    

北京石油化工学院2026年研究生招生接收调剂公告
查看: 1330  |  回复: 13
【奖励】 本帖被评价5次,作者yalefield增加金币 5
当前主题已经存档。

[资源] 老汉聊变量选择

俗话说,一个好汉三个帮。一个可靠的模型,一定是建立在可靠的变量的基础上的。没有好的变量,再简单的模型也不可靠。因此,虽然建模的方法丰富多样,评估的方法也各具特色,但是变量的选择却是实实在在的关键。

目前,QSAR/QSPR/QSTR/QSMR等(其实数学/计量学上都是一回事)的变量已经泛滥成灾,最多的可以弄出2千多个变量(描述子,Descriptor)来。

那么,如何选出可靠的变量呢?

首先,要进行预处理。如标准化、中心化、正规化等。
      此外,还要弄清楚,哪些是整型的,哪些是实数的。一般需要分开处理。
其次,对具有共线性的若干变量,只保留一个。
再次,删除对不敏感(也就是对很多样本来说都一样)的若干变量。

在这些步骤之后,可以做一个PCA(主成分分析),观察一下。
在因子载荷图上,变量是不是一簇一簇的?
对于成一簇的,可以尽量选出“代表”,一般选位于簇心偏距原点较远的。

老汉是主张“多看”的。
现在,很多软件,包括Sybyl, Material Studio等,似乎非常自信,根本不给用户观察的机会,一闪,结果就出来了。老汉此时,总在心里说:“啊...呸”。

怎么有点像《奋斗》里的华子?

佟大为--饰陆涛
朱雨辰--饰华子
徐翠翠--饰露露
周晓鸥--饰猪头

华子听说/看到猪头撬了自己的女友露露,
啊...呸
啊...呸
啊...呸
呸了陆涛好几脸。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

遗传算法

当建模变得很简便(但未必可靠)之后,对模型的评价似乎更受瞩目。
不过,任何评价都是“马后炮”。

遗传算法的应用,就是连续放“马后炮”。
也就是循环,直到连续几次放炮的效果没什么变化了。
在循环的每步,都选择一些变量建模。
2楼2007-12-04 18:45:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

njut007

银虫 (小有名气)


★★★★★ 五星级,优秀推荐

呵呵,谢谢啦,先顶了再慢慢研究
3楼2007-12-04 19:14:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

njut007

银虫 (小有名气)


不过前辈讲的似乎都是作为一个QSAR达人对于选择变量的理解
但是我目前处于初级阶段,连自己参照help作出来的图形,图表都不能理解

所以理解文中的思路,却不能对号入座逐步操作,所以对于前辈的见解只能“望洋兴叹”了,看来有欠修炼阿

最后想问一下,前辈这个“一闪,结果就出来了”,闪出来的结果应该不会是选出来的变量吧,我的理解前辈这个选择四步骤应该每一步一中分析方法(算法),然后结果出来之后自己选择,不知道是不是这样
4楼2007-12-04 20:18:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
老汉曾经用C语言来玩这个游戏。
所以,处于非常的底层。
所以,很担心,软件越来越方便,可是软件的可靠性越来越差。
人呢,也不需要了解软件究竟是怎样做的。
5楼2007-12-04 22:38:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

njut007

银虫 (小有名气)


呵呵,是啊
我不想知道它是怎么做滴,就想知道它是怎么用滴
6楼2007-12-05 08:51:39
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

csfn

荣誉版主 (知名作家)


★★★★★ 五星级,优秀推荐


不要担心
软件需要人来做
用的人再方便还是要依靠那些编软件的人,基础不会丢失的
只是在某些领域会出现迷失而已
7楼2007-12-05 09:13:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

★★★★★ 五星级,优秀推荐

不过话说回来,变量选择终究是一条很难走的路啊……
8楼2007-12-05 12:07:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
Validation tools for variable subset regression
Knut Baumann & Nikolaus Stiefl
J Comput Aided Mol Design 2004 18:549-562
9楼2007-12-05 12:12:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

samtyty

铁杆木虫 (著名写手)


★★★★★ 五星级,优秀推荐

那么,如何选出可靠的变量呢?

首先,要进行预处理。如标准化、中心化、正规化等。
      此外,还要弄清楚,哪些是整型的,哪些是实数的。一般需要分开处理。
其次,对具有共线性的若干变量,只保留一个。
再次,删除对不敏感(也就是对很多样本来说都一样)的若干变量。
————————————————————————————————————————————

对这些实际的操作方法,本人不完全赞成,比如:
其次,对具有共线性的若干变量,只保留一个。
删除哪一个呢?删除的原则?

另外,本人非常赞成老汉对变量选择软件的评价,也是我回帖的动力之一。呵呵
10楼2007-12-06 10:27:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
个人认为,可以采取Back & Forth的方式从相关性较高的变量中进行选择。
11楼2007-12-06 11:43:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

samtyty

铁杆木虫 (著名写手)


实际上这样选择变量,经常会出现过拟合的问题。
12楼2007-12-06 11:51:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
The Problem of Overfitting
Hawkins, D. M.
J. Chem. Inf. Comput. Sci.; 2004; 44(1); 1-12
13楼2007-12-06 15:23:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 yalefield 的主题更新
☆ 无星级 ★ 一星级 ★★★ 三星级 ★★★★★ 五星级
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 0855求调剂材料 +9 红桃灼灼 2026-04-04 9/450 2026-04-05 10:59 by 啊俊!
[考研] 化学357分,考研调剂 +10 .Starry. 2026-04-04 11/550 2026-04-05 10:57 by cql1109
[考研] 272求调剂 +4 电气李 2026-04-05 4/200 2026-04-05 10:41 by lbsjt
[考研] 271分求调剂学校 +12 zph158488! 2026-04-02 13/650 2026-04-05 10:13 by lqwchd
[考研] 材料化工306分找合适调剂 +14 沧海轻舟e 2026-04-04 14/700 2026-04-05 09:53 by 朱云虎202
[考研] 材料调剂 +7 dxy调剂 2026-04-04 7/350 2026-04-05 09:15 by 陌秋26
[考研] 290求调剂 +7 luoziheng 2026-04-04 7/350 2026-04-04 23:17 by lqwchd
[考研] 085600调剂 +4 1amJJ 2026-04-02 4/200 2026-04-04 21:53 by hemengdong
[考研] 291求调剂 +4 迷蒙木木 2026-04-01 5/250 2026-04-04 15:59 by sihailian3
[考研] 一志愿沪985,326分求调剂 +3 刘墨墨 2026-04-03 3/150 2026-04-04 11:16 by 悲伤的芋头
[考研] 305求调剂 +3 77Qi 2026-04-03 3/150 2026-04-03 23:01 by qzxyhcsy
[考研] 土木水利328分求调剂 +6 疾风知劲草666 2026-04-02 6/300 2026-04-03 11:38 by znian
[考研] 085600 295分求调剂 +19 W55j 2026-03-30 23/1150 2026-04-03 09:53 by 千千运气
[考研] 环境工程297分求调剂一志愿杭高院 +15 GENJIOW 2026-03-31 16/800 2026-04-02 17:56 by cyh—315
[考研] 初试301,代码085701环境工程,本硕一致,四六级已过,有二区一作,共发表5篇论文 +6 axibli 2026-04-01 6/300 2026-04-02 13:42 by Ecowxq666!
[考研] 354求调剂 +4 lxb598 2026-03-31 5/250 2026-04-02 09:55 by Jaylen.
[考研] 求调剂,一志愿南京师范大学计算机专硕,初试373,六级通过, +3 计算机追梦人 2026-04-01 3/150 2026-04-02 07:57 by fxue1114
[考研] 349求调剂 +6 吃的不少 2026-04-01 6/300 2026-04-01 17:55 by JYD2011
[考研] 339求调剂 +5 zjjkt 2026-03-31 5/250 2026-04-01 09:18 by JourneyLucky
[考研] 土木304求调剂 +5 顶级擦擦 2026-03-31 5/250 2026-04-01 08:15 by fdcxdystjk¥
信息提示
请填处理意见