| 查看: 1677 | 回复: 9 | ||
| 【奖励】 本帖被评价2次,作者lhdcsu增加金币 1.5 个 | ||
| 当前主题已经存档。 | ||
[资源]
化学计量学中的一些必备的统计学习基础(纯属个人感觉,请虫友指正)
|
||
|
(纯属个人感觉,请虫友指正) 化学计量学主要包括了采样理论,实验设计,信号处理,多元分辨与校正,定量结构活性研究(QSAR),模式识别及智能专家系统这几个部分。其中的QSAR及模式识别与统计学习方法密切相关,所以,对统计学习理论的一些基础的掌握应该是有必要的。 最基本的概念莫过于随即变量的概率密度函数了。它反映了变量的在空间的分布状况,那些区域分布密集,那些区域分布稀疏,一旦某个变量的概率密度函数确定了,那么相应的很多问题就会被轻而易举的解决,问题就出在对变量的概率密度的估计是一件很难的事情,往往从经验数据中推测。常用的分布有正态分布,F分布,t分布,瑞利分布等等。可以这样讲,数据的分布是建立模型的根本。 其次就是随机变量的数字特征,如期望值,方差。期望值就是加权平均,方差反映出数据变动的大小。我们通常说,某变量的方差越大,就蕴藏着越多的信息,方差为0的话,那就不能提供任何信息。所以,在化学计量学里面,方差可以看作是是衡量信息量的一个测度。举个例子,在主成分分析,偏最小二乘中,对主成分的提取就是 在潜变量的方差或协方差最大的方向上进行,因为这些方向上蕴藏的信息多,仅需几个潜变量就可提取出很丰富的信息,既降低了数据的维数,又不会丢失很多信息。 相关系数:可以用来描述两个变量之间的线性相关程度。对于一个矩阵数据来说,变量之间的相关系数可以反映出变量之间信息重叠程度的大小,也能反映出矩阵的病态程度的大小。 模型评价:在回归分析中,得到数学模型之后,往往会用一些参数来评价模型的质量,比如用复相关系数,均方误差,F值,交互检验值等。在模式识别中,用到错分率,交互检验值等。 损失函数:一个模型的建立事实上可以看作对一个特定的目标函数的优化,这个目标函数通常就是损失函数,常用的损失函数有平方损失函数,0-1损失函数及用的比较少的指数损失函数(boosting)。据说统计学家都比较低调,喜欢比较低调的词语,如损失一词,呵呵。 欠拟合与过拟合:我们喜欢一个合适的模型,在能够解释数据的情况下,模型越简单越好,不严格的讲,这就是奥柯姆剃刀原理。而事实上,我们建立的模型可能发生欠拟合(不能很好的解释数据)或者过拟合(把误差也给拟合了,泛化能力差)。这两种情况都不是我们所需要的,我们需要的是一个‘合适’的模型,怎么样才算合适呢?这一直是一个问题。 附: 在Vapnik的《统计学习本质》这本书里面,他说机器学习包括三个部分:回归分析,模式识别及最根本的密度估计。 [search]化学计量学[/search] [ Last edited by 佳怡 on 2009-4-23 at 21:33 ] |
» 猜你喜欢
323分(计算机视觉和大模型项目)能直接上手
已经有3人回复
复试调剂
已经有3人回复
311分 22408 求调剂
已经有3人回复
320分人工智能调剂
已经有7人回复
一志愿郑大0705求调剂
已经有4人回复
0703化学
已经有10人回复
301求调剂
已经有10人回复
306分材料与化工求调剂
已经有6人回复
材料调剂
已经有11人回复
324求调剂
已经有9人回复

dnp
荣誉版主 (知名作家)
小木虫浪子
- 应助: 74 (初中生)
- 贵宾: 18.476
- 金币: 18844.9
- 散金: 2040
- 红花: 77
- 沙发: 6
- 帖子: 7318
- 在线: 598.1小时
- 虫号: 437184
- 注册: 2007-08-26
- 性别: GG
- 专业: 生物信息学
- 管辖: 有机交流

2楼2007-12-24 20:31:56
3楼2007-12-24 21:33:09
yalefield
金虫 (文坛精英)
老汉一枚
- 应助: 129 (高中生)
- 贵宾: 0.17
- 金币: 21238.9
- 散金: 3440
- 红花: 66
- 帖子: 12101
- 在线: 759.1小时
- 虫号: 96063
- 注册: 2005-10-07
- 专业: 高等教育学
- 管辖: 计算模拟
4楼2007-12-24 22:41:29
dnp
荣誉版主 (知名作家)
小木虫浪子
- 应助: 74 (初中生)
- 贵宾: 18.476
- 金币: 18844.9
- 散金: 2040
- 红花: 77
- 沙发: 6
- 帖子: 7318
- 在线: 598.1小时
- 虫号: 437184
- 注册: 2007-08-26
- 性别: GG
- 专业: 生物信息学
- 管辖: 有机交流

5楼2007-12-24 22:59:02

6楼2007-12-25 09:13:55

7楼2007-12-25 11:02:12

8楼2007-12-25 11:07:59
wakan
木虫 (正式写手)
- ACI: 1
- 应助: 2 (幼儿园)
- 金币: 1803.4
- 红花: 2
- 帖子: 331
- 在线: 64.8小时
- 虫号: 442720
- 注册: 2007-10-27
- 专业: 质谱分析
9楼2007-12-25 22:10:39

10楼2007-12-26 12:49:51














回复此楼
。