24小时热门版块排行榜    

北京石油化工学院2026年研究生招生接收调剂公告
查看: 1333  |  回复: 13
【奖励】 本帖被评价5次,作者yalefield增加金币 5
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

[资源] 老汉聊变量选择

俗话说,一个好汉三个帮。一个可靠的模型,一定是建立在可靠的变量的基础上的。没有好的变量,再简单的模型也不可靠。因此,虽然建模的方法丰富多样,评估的方法也各具特色,但是变量的选择却是实实在在的关键。

目前,QSAR/QSPR/QSTR/QSMR等(其实数学/计量学上都是一回事)的变量已经泛滥成灾,最多的可以弄出2千多个变量(描述子,Descriptor)来。

那么,如何选出可靠的变量呢?

首先,要进行预处理。如标准化、中心化、正规化等。
      此外,还要弄清楚,哪些是整型的,哪些是实数的。一般需要分开处理。
其次,对具有共线性的若干变量,只保留一个。
再次,删除对不敏感(也就是对很多样本来说都一样)的若干变量。

在这些步骤之后,可以做一个PCA(主成分分析),观察一下。
在因子载荷图上,变量是不是一簇一簇的?
对于成一簇的,可以尽量选出“代表”,一般选位于簇心偏距原点较远的。

老汉是主张“多看”的。
现在,很多软件,包括Sybyl, Material Studio等,似乎非常自信,根本不给用户观察的机会,一闪,结果就出来了。老汉此时,总在心里说:“啊...呸”。

怎么有点像《奋斗》里的华子?

佟大为--饰陆涛
朱雨辰--饰华子
徐翠翠--饰露露
周晓鸥--饰猪头

华子听说/看到猪头撬了自己的女友露露,
啊...呸
啊...呸
啊...呸
呸了陆涛好几脸。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

samtyty

铁杆木虫 (著名写手)


★★★★★ 五星级,优秀推荐

那么,如何选出可靠的变量呢?

首先,要进行预处理。如标准化、中心化、正规化等。
      此外,还要弄清楚,哪些是整型的,哪些是实数的。一般需要分开处理。
其次,对具有共线性的若干变量,只保留一个。
再次,删除对不敏感(也就是对很多样本来说都一样)的若干变量。
————————————————————————————————————————————

对这些实际的操作方法,本人不完全赞成,比如:
其次,对具有共线性的若干变量,只保留一个。
删除哪一个呢?删除的原则?

另外,本人非常赞成老汉对变量选择软件的评价,也是我回帖的动力之一。呵呵
10楼2007-12-06 10:27:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 14 个回答

遗传算法

当建模变得很简便(但未必可靠)之后,对模型的评价似乎更受瞩目。
不过,任何评价都是“马后炮”。

遗传算法的应用,就是连续放“马后炮”。
也就是循环,直到连续几次放炮的效果没什么变化了。
在循环的每步,都选择一些变量建模。
2楼2007-12-04 18:45:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

njut007

银虫 (小有名气)


★★★★★ 五星级,优秀推荐

呵呵,谢谢啦,先顶了再慢慢研究
3楼2007-12-04 19:14:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

njut007

银虫 (小有名气)


不过前辈讲的似乎都是作为一个QSAR达人对于选择变量的理解
但是我目前处于初级阶段,连自己参照help作出来的图形,图表都不能理解

所以理解文中的思路,却不能对号入座逐步操作,所以对于前辈的见解只能“望洋兴叹”了,看来有欠修炼阿

最后想问一下,前辈这个“一闪,结果就出来了”,闪出来的结果应该不会是选出来的变量吧,我的理解前辈这个选择四步骤应该每一步一中分析方法(算法),然后结果出来之后自己选择,不知道是不是这样
4楼2007-12-04 20:18:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
☆ 无星级 ★ 一星级 ★★★ 三星级 ★★★★★ 五星级
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 材料工程专硕求调剂 +11 hyl3153942 2026-03-29 11/550 2026-04-05 11:12 by 风雨无晴
[考研] 324求调剂 +9 想上学求调 2026-04-03 9/450 2026-04-04 23:57 by 果冻大王
[考研] 材料专硕322分 +11 哈哈哈吼吼吼哈 2026-04-02 11/550 2026-04-04 23:37 by 永字号
[考研] 材料求调剂 +10 呢呢妮妮 2026-04-01 10/500 2026-04-04 23:12 by 无际的草原
[考研] 考研调剂 +5 四川王涛 2026-04-04 5/250 2026-04-04 22:18 by 啵啵啵0119
[考研] 环境285分,过六级,求调剂 +10 xhr12 2026-04-02 10/500 2026-04-04 21:53 by bn53987
[考研] 321求调剂 +13 认真求上学 2026-04-02 13/650 2026-04-04 18:23 by macy2011
[考研] 怎么删帖子啊 +3 缝曦1000 2026-04-04 3/150 2026-04-04 14:20 by 土木硕士招生
[考研] 一志愿北京科技大学材料工程085601,求调剂 +17 cdyw 2026-04-02 18/900 2026-04-04 11:14 by w_xuqing
[考研] 329求调剂,一志愿西北工业大学,材料工程(085601) +8 小小机灵虫 2026-03-29 14/700 2026-04-03 19:38 by lijunpoly
[考研] 303求调剂 +3 一色清羽 2026-04-02 4/200 2026-04-03 10:22 by 蓝云思雨
[考研] 326求调剂 +3 9ahye 2026-04-02 4/200 2026-04-03 08:43 by Jaylen.
[考研] 农学考研求调剂 +3 dkdkxm 2026-04-01 3/150 2026-04-02 16:04 by wangjagri
[考研] 318求调剂 +3 笃行致远. 2026-03-31 4/200 2026-04-02 15:56 by Jaylen.
[考研] 283求调剂 +3 jiouuu 2026-04-02 4/200 2026-04-02 14:08 by 哒哒哒呱呱呱
[考研] 一志愿北京科技大学材料学硕328分求调剂 +6 1段时间 2026-03-31 7/350 2026-04-02 13:57 by 3041
[考研] 初试301,代码085701环境工程,本硕一致,四六级已过,有二区一作,共发表5篇论文 +6 axibli 2026-04-01 6/300 2026-04-02 13:42 by Ecowxq666!
[考研] 0805求调剂 +8 是水分 2026-03-31 8/400 2026-04-02 10:46 by guanxin1001
[考研] 考研生物与医药调剂 +7 铁憨憨123425 2026-03-31 7/350 2026-04-01 08:45 by JourneyLucky
[考研] 考研调剂求助 +7 13287130938 2026-03-31 7/350 2026-03-31 16:39 by 690616278
信息提示
请填处理意见