24小时热门版块排行榜    

查看: 828  |  回复: 13
【奖励】 本帖被评价5次,作者yalefield增加金币 5
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

[资源] 老汉聊变量选择

俗话说,一个好汉三个帮。一个可靠的模型,一定是建立在可靠的变量的基础上的。没有好的变量,再简单的模型也不可靠。因此,虽然建模的方法丰富多样,评估的方法也各具特色,但是变量的选择却是实实在在的关键。

目前,QSAR/QSPR/QSTR/QSMR等(其实数学/计量学上都是一回事)的变量已经泛滥成灾,最多的可以弄出2千多个变量(描述子,Descriptor)来。

那么,如何选出可靠的变量呢?

首先,要进行预处理。如标准化、中心化、正规化等。
      此外,还要弄清楚,哪些是整型的,哪些是实数的。一般需要分开处理。
其次,对具有共线性的若干变量,只保留一个。
再次,删除对不敏感(也就是对很多样本来说都一样)的若干变量。

在这些步骤之后,可以做一个PCA(主成分分析),观察一下。
在因子载荷图上,变量是不是一簇一簇的?
对于成一簇的,可以尽量选出“代表”,一般选位于簇心偏距原点较远的。

老汉是主张“多看”的。
现在,很多软件,包括Sybyl, Material Studio等,似乎非常自信,根本不给用户观察的机会,一闪,结果就出来了。老汉此时,总在心里说:“啊...呸”。

怎么有点像《奋斗》里的华子?

佟大为--饰陆涛
朱雨辰--饰华子
徐翠翠--饰露露
周晓鸥--饰猪头

华子听说/看到猪头撬了自己的女友露露,
啊...呸
啊...呸
啊...呸
呸了陆涛好几脸。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

njut007

银虫 (小有名气)


呵呵,是啊
我不想知道它是怎么做滴,就想知道它是怎么用滴
6楼2007-12-05 08:51:39
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 14 个回答

遗传算法

当建模变得很简便(但未必可靠)之后,对模型的评价似乎更受瞩目。
不过,任何评价都是“马后炮”。

遗传算法的应用,就是连续放“马后炮”。
也就是循环,直到连续几次放炮的效果没什么变化了。
在循环的每步,都选择一些变量建模。
2楼2007-12-04 18:45:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

njut007

银虫 (小有名气)


★★★★★ 五星级,优秀推荐

呵呵,谢谢啦,先顶了再慢慢研究
3楼2007-12-04 19:14:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

njut007

银虫 (小有名气)


不过前辈讲的似乎都是作为一个QSAR达人对于选择变量的理解
但是我目前处于初级阶段,连自己参照help作出来的图形,图表都不能理解

所以理解文中的思路,却不能对号入座逐步操作,所以对于前辈的见解只能“望洋兴叹”了,看来有欠修炼阿

最后想问一下,前辈这个“一闪,结果就出来了”,闪出来的结果应该不会是选出来的变量吧,我的理解前辈这个选择四步骤应该每一步一中分析方法(算法),然后结果出来之后自己选择,不知道是不是这样
4楼2007-12-04 20:18:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
☆ 无星级 ★ 一星级 ★★★ 三星级 ★★★★★ 五星级
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见