[转载]主成分分析，聚类分析，因子分析的基本思想以及他们各自的优缺点 - 药学 - 其它

版块导航: 正在加载中...

客户端APP下载

论文辅导

调剂小程序

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

wyr1989

铁杆木虫 (著名写手)

千禧虫~

应助: 1 (幼儿园)
贵宾: 0.198
金币: 15138.6
散金: 841
红花: 9
帖子: 1018
在线: 515.2小时
虫号: 1458840
注册: 2011-10-24
性别: MM
专业: 信号理论与信号处理

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

pca的应用领域好宽泛啊。。

赞一下

回复此楼

人生如钟摆，总是在无聊与痛苦之间徘徊，谁能逃得过时间之蹄而不衰老？谁能躲得过现实之锤而不折骨？不能，不能！---叔本华

11楼2013-08-18 16:57:09

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

独立寒江雪

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 1.5
红花: 1
帖子: 9
在线: 8.6小时
虫号: 1144231
注册: 2010-11-11
性别: GG
专业: 信息安全

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

看完清晰许多，不过聚类里面可以讲得更细致些！

赞一下

回复此楼

12楼2013-10-22 15:13:37

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

因幡

木虫 (小有名气)

应助: 2 (幼儿园)
金币: 1419.4
散金: 217
红花: 3
帖子: 214
在线: 34.7小时
虫号: 1296672
注册: 2011-05-16
专业: 全球变化生态学

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

马克，之后再来看吧

赞一下(1人)

回复此楼

一直在围观,从来不吐槽

13楼2014-02-18 10:59:33

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

人鱼禾斗

禁虫 (小有名气)

送红花一朵

本帖内容被屏蔽

14楼2015-06-23 15:26:36

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

54一根烟

银虫 (初入文坛)

应助: 0 (幼儿园)
金币: 450.7
散金: 30
帖子: 33
在线: 8.7小时
虫号: 2886317
注册: 2013-12-21
性别: GG
专业: 水文、水资源

好的，讲的好

回复此楼

我梦寐以求，是梦想和自由。

15楼2015-08-06 12:04:49

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

cynlicious

新虫 (小有名气)

应助: 2 (幼儿园)
金币: 177.4
散金: 5
红花: 1
帖子: 236
在线: 61.6小时
虫号: 2428938
注册: 2013-04-21
性别: MM
专业: 环境微生物学

很有用，谢谢楼主

回复此楼

气顺，心顺，事顺。不要有功利心，耶！

16楼2015-08-07 11:59:13

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

jiawenqi111

新虫 (初入文坛)

应助: 1 (幼儿园)
金币: 15.3
帖子: 14
在线: 5.1小时
虫号: 2755592
注册: 2013-10-26
专业: 自然语言理解与机器翻译

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

借着楼主的这个话题，最近做的项目中用到了这几个算法（实际上是调用了大数据机器学习算法的开源接口spark的ml库）我也总结一番。
先说说聚类相关的内容。
（一）k-means算法
首先是k-means算法，k-means算法是聚类分析中使用最广泛的算法之一。它把n个样本根据它们的属性特征分为k个聚类，也常被称作k个簇，以便使得所获得的聚类满足：同一聚类（同一个簇）中的样本相似度较高；而不同聚类（不同簇）中的样本相似度较小。
1、k-means算法的基本过程如下所示：
（1）任意选择k个初始中心c_{1},c_{2},...,c_{k} 。
（2）计算X中的每个样本与这些中心的距离；并根据最小距离重新对相应样本进行划分；
（3）重新计算每个中心对象 C_{i} 的值
（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则重复步骤（2），（3）。
2、k-means算法的缺点，k-means算法虽然简单快速，但是存在下面的缺点：
聚类中心的个数K需要事先给定，但在实际中K值的选定是非常困难的，很多时候我们并不知道给定的数据集应该分成多少个类别才最合适。
k-means算法需要随机地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。
第一个缺陷我们很难在k-means算法以及其改进算法中解决，但是我们可以通过k-means++算法来解决第二个缺陷。

（二）k-means++算法
1、k-means++算法选择初始聚类中心的基本原则是：初始的聚类中心之间的相互距离要尽可能的远。它选择初始聚类中心的步骤是：
（1）从输入的数据点集合中随机选择一个点作为第一个聚类中心 c_{1} ；
（2）对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)，并根据概率选择新的聚类中心 c_{i} 。
（3）重复过程（2）直到找到k个聚类中心。
2、第(2)步中，依次计算每个数据点与最近的种子点（聚类中心）的距离，依次得到D(1)、D(2)、...、D(n)构成的集合D，其中n表示数据集的大小。在D中，为了避免噪声，不能直接选取值最大的元素，应该选择值较大的元素，然后将其对应的数据点作为种子点（聚类中心）。
3、那么如何选择值较大的元素呢，下面是spark中实现的思路：
求所有的距离和Sum(D(x))
取一个随机值，用权重的方式来取计算下一个“种子点”。这个算法的实现是，先用Sum(D(x))乘以随机值Random得到值r，然后用currSum += D(x)，直到其currSum > r，此时的点就是下一个“种子点”。
为什么用这样的方式呢？我们换一种比较好理解的方式来说明。把集合D中的每个元素D(x)想象为一根线L(x)，线的长度就是元素的值。将这些线依次按照L(1)、L(2)、...、L(n)的顺序连接起来，组成长线L。L(1)、L(2)、…、L(n)称为L的子线。根据概率的相关知识，如果我们在L上随机选择一个点，那么这个点所在的子线很有可能是比较长的子线，而这个子线对应的数据点就可以作为种子点。
(三）二分k-means算法
1、二分k-means算法是分层聚类（Hierarchical clustering）的一种，分层聚类是聚类分析中常用的方法。分层聚类的策略一般有两种：
聚合。这是一种自底向上的方法，每一个观察者初始化本身为一类，然后两两结合
分裂。这是一种自顶向下的方法，所有观察者初始化为一类，然后递归地分裂它们
二分k-means算法是分裂法的一种。

2、二分k-means算法是k-means算法的改进算法，相比k-means算法，它有如下优点：
二分k-means算法可以加速k-means算法的执行速度，因为它的相似度计算少了
能够克服k-means收敛于局部最小的缺点
二分k-means算法的一般流程如下所示：
（1）把所有数据初始化为一个簇，将这个簇分为两个簇。
（2）选择满足条件的可以分解的簇。选择条件综合考虑簇的元素个数以及聚类代价（也就是误差平方和SSE）
（3）使用k-means算法将可分裂的簇分为两簇。
（4）一直重复（2）（3）步，直到满足迭代结束条件。
以上过程隐含着一个原则是：因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点越接近于它们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次的划分，因为误差平方和越大，表示该簇聚类越不好，越有可能是多个簇被当成一个簇了，所以我们首先需要对这个簇进行划分。
(三）高斯混合模型
顾名思义，就是数据可以看作是从多个高斯分布中生成出来的。从中心极限定理可以看出，高斯分布这个假设其实是比较合理的。为什么我们要假设数据是由若干个高斯分布组合而成的，而不假设是其他分布呢？实际上不管是什么分布，只K取得足够大，这个XX Mixture Model就会变得足够复杂，就可以用来逼近任意连续的概率密度分布。只是因为高斯函数具有良好的计算性能，所GMM被广泛地应用。
每个GMM由K个高斯分布组成，每个高斯分布称为一个组件（Component），这些组件线性加成在一起就组成了GMM的概率密度函数。如果我们要从GMM分布中随机地取一个点，需要两步：
随机地在这K个组件之中选一个，每个组件被选中的概率实际上就是它的系数pi_k；
选中了组件之后，再单独地考虑从这个组件的分布中选取一个点。
怎样用GMM来做聚类呢？其实很简单，现在我们有了数据，假定它们是由GMM生成出来的，那么我们只要根据数据推出GMM的概率分布来就可以了，然后GMM的K个组件实际上就对应了K个聚类了。
再说说PCA算法：
（四）在机器学习领域中，我们对原始数据进行特征提取，有时会得到比较高维的特征向量。在这些向量所处的高维空间中，包含很多的冗余和噪声。我们希望通过降维的方式来寻找数据内部的特性，从而提升特征表达能力，降低训练复杂度CA(principal components analysis)，即主成分分析，旨在找到数据中的主成分，并利用这些主成分表征原始数据，从而达到降维的目的。
PCA的求解方法：
对样本进行中心化处理
求样本的协方差矩阵
对协方差矩阵进行特征值分解，将特征值从大到小排列
取前k大的特征值对应的特征向量
最后通过向量内积映射将n维样本向量映射到k维

就先总结这么多吧，回复不能编辑公式，有些总结的比较含糊。。

赞一下

回复此楼

专注高校科研大数据分析平台——数据超市产品（www.bigdata711.com）

17楼2018-01-23 13:17:25

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 jixiaw 的主题更新

返回列表

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[考研] 283求调剂 +10	小楼。 2026-03-12	14/700	2026-03-16 16:08 by 13811244083
[考研] 中科院材料273求调剂 +4	yzydy 2026-03-15	4/200	2026-03-16 15:59 by Gaodh_82
[考研] 材料与化工专硕调剂 +3	heming3743 2026-03-16	3/150	2026-03-16 15:05 by peike
[考研] 268求调剂 +5	一定有学上- 2026-03-14	6/300	2026-03-14 22:20 by 运气yunqi
[考研] 材料工程327求调剂 +3	xiaohe12w 2026-03-11	3/150	2026-03-14 20:20 by ms629
[考研] 本科南京大学一志愿川大药学327 +3	麦田耕者 2026-03-14	3/150	2026-03-14 20:04 by 外星文明
[考研] 328求调剂 +3	5201314Lsy！ 2026-03-13	6/300	2026-03-14 15:31 by hyswxzs
[考研] 一志愿华中农业大学071010，总分三百二,求调剂 +3	困困困困坤坤 2026-03-10	3/150	2026-03-14 00:35 by JourneyLucky
[考研] 318求调剂 +3	李新光 2026-03-10	3/150	2026-03-14 00:21 by JourneyLucky
[考研] 341求调剂 +4	番茄头--- 2026-03-10	4/200	2026-03-13 23:12 by JourneyLucky
[考研] 求材料调剂 +5	隔壁陈先生 2026-03-12	5/250	2026-03-13 22:03 by 星空星月
[考研] ［0860］321分求调剂，ab区皆可 +4	宝贵热 2026-03-13	4/200	2026-03-13 22:01 by 星空星月
[考研] 293求调剂 +3	世界首富 2026-03-11	3/150	2026-03-13 16:27 by JourneyLucky
[考研] 307求调剂 +5	超级伊昂大王 2026-03-12	5/250	2026-03-13 15:56 by 棒棒球手
[考研] 工科278分求调剂 +5	周慢热啊 2026-03-12	7/350	2026-03-13 15:49 by JourneyLucky
[考研] 314求调剂 +7	无懈可击的巨人 2026-03-12	7/350	2026-03-13 15:40 by JourneyLucky
[论文投稿] 投稿问题 5+4	星光灿烂xt 2026-03-12	6/300	2026-03-13 14:17 by god_tian
[考研] 274求调剂0856材料化工 +12	z2839474511 2026-03-11	13/650	2026-03-13 10:39 by peike
[考研] 270求调剂 085600材料与化工专硕 +3	YXCT 2026-03-11	3/150	2026-03-13 10:13 by houyaoxu
[考研] 一志愿：武汉理工，材料工程，英二数二总分314 +3	2202020125 2026-03-10	4/200	2026-03-10 13:54 by xiongyaxuan