| 查看: 2393 | 回复: 11 | |||
| 当前主题已经存档。 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
[交流]
数据挖掘的10个常见问题
|
|||
|
Q1. Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性: 1.处理大量实际资料更强势,且无须太专业的统计背景去使用Data Mining的工具; 2.资料分析趋势为从大型数据库抓取所需资料并使用专属计算机分析软件,Data Mining的工具更符合企业需求; 3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差别,毕竟Data Mining目的是方便企业末端用者使用而非给统计学家检测用的。 [ Last edited by 幻影无痕 on 2006-10-27 at 07:42 ] |
» 猜你喜欢
340求调剂
已经有3人回复
材料专硕找调剂
已经有4人回复
0854电子信息求调剂
已经有6人回复
0805 316求调剂
已经有4人回复
0854 考研调剂 招生了!AI 方向
已经有17人回复
【考研调剂】化学专业 281分,一志愿四川大学,诚心求调剂
已经有15人回复
资源与环境 调剂申请(333分)
已经有7人回复
306求0703调剂一志愿华中师范
已经有11人回复
0703化学调剂,求导师收
已经有6人回复
求调剂
已经有5人回复
幻影无痕
荣誉版主 (知名作家)
小木虫论坛总监
- 应助: 2 (幼儿园)
- 贵宾: 8.003
- 金币: 16253.5
- 散金: 200
- 红花: 5
- 沙发: 5
- 帖子: 9634
- 在线: 58.2小时
- 虫号: 245777
- 注册: 2006-04-29
- 性别: GG
- 专业: 催化化学
- 管辖: 地学
|
Data Mining包含哪些主要功能? Data Mining实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。 Classification是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如将一组资料分为 "可能会响应" 或是 "可能不会响应" 两类)。Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的资料来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类资料可能是来自我们的现有的客户资料,或是将一个完整数据库做部份取样,再经由实际的运作来测试;譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model,再利用这个Model来对数据库的其它资料或是新的资料作分类预测。 Clustering用在将资料分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。Clustering与Classification不同的是,在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。 Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量,特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具,推估预测的模式已不在止于传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。 Time-Series Forecasting与Regression功能类似,只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性,譬如时间的周期性、阶层性、季节性以及其它的一些特别因素(如过去与未来的关连性)。 Association是要找出在某一事件或是资料中会同时出现的东西。举例而言,如果A是某一事件的一种选择,则B也出现在该事件中的机率有多少。(例如:如果顾客买了火腿和柳橙汁,那么这个顾客同时也会买牛奶的机率是85%。) Sequence Discovery与Association关系很密切,所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔(例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是 68%)。 |

7楼2006-09-11 10:34:55
yuefour
金虫 (正式写手)
- 应助: 0 (幼儿园)
- 贵宾: 9.5
- 金币: 1310.7
- 帖子: 838
- 在线: 17小时
- 虫号: 64621
- 注册: 2005-04-16
- 性别: GG
- 专业: 中医内科
2楼2005-07-07 18:47:05
幻影无痕
荣誉版主 (知名作家)
小木虫论坛总监
- 应助: 2 (幼儿园)
- 贵宾: 8.003
- 金币: 16253.5
- 散金: 200
- 红花: 5
- 沙发: 5
- 帖子: 9634
- 在线: 58.2小时
- 虫号: 245777
- 注册: 2006-04-29
- 性别: GG
- 专业: 催化化学
- 管辖: 地学
★
sinapdb(金币+1):thanks for your sharing
sinapdb(金币+1):thanks for your sharing
|
Q2. Data Warehousing 和 Data Mining 的关系为何? 若将Data Warehousing(资料仓储)比喻作矿坑,Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的资料,是很难期待Data Mining能挖掘出什么有意义的信息的。 要将庞大的资料转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集资料的工具。「资料仓储」,简单地说,就是搜集来自其它系统的有用资料,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的资料,供决策支持或资料分析使用。从信息技术的角度来看,资料仓储的目标是在组织中,在正确的时间,将正确的资料交给正确的人。 许多人对于Data Warehousing和Data Mining时常混淆,不知如何分辨。其实,资料仓储是数据库技术的一个新主题,在资料科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。 资料仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的资料,特别是指从线上交易系统OLTP(On-Line Transactional Processing)所得来的资料。将这些整合过的资料置放于资料仓储中,而公司的决策者则利用这些资料作决策;但是,这个转换及整合资料的过程,是建立一个资料仓储最大的挑战。因为将作业中的资料转换成有用的的策略性信息是整个资料仓储的重点。综上所述,资料仓储应该具有这些资料:整合性资料(integrated data)、详细和汇总性的资料(detailed and summarized data)、历史资料、解释资料的资料。从资料仓储挖掘出对决策有用的信息与知识,是建立资料仓储与使用Data Mining的最大目的,两者的本质与过程是两码子事。换句话说,资料仓储应先行建立完成,Data mining才能有效率的进行,因为资料仓储本身所含资料是干净(不会有错误的资料参杂其中)、完备,且经过整合的。因此两者关系或许可解读为「Data Mining是从巨大资料仓储中找出有用信息的一种过程与技术」。 |

3楼2006-09-11 10:31:50
幻影无痕
荣誉版主 (知名作家)
小木虫论坛总监
- 应助: 2 (幼儿园)
- 贵宾: 8.003
- 金币: 16253.5
- 散金: 200
- 红花: 5
- 沙发: 5
- 帖子: 9634
- 在线: 58.2小时
- 虫号: 245777
- 注册: 2006-04-29
- 性别: GG
- 专业: 催化化学
- 管辖: 地学
|
Q3. OLAP 能不能代替 Data Mining? 所谓OLAP(Online Analytical Process)意指由数据库所连结出来的线上查询分析程序。有些人会说:「我已经有OLAP的工具了,所以我不需要Data Mining。」事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而Data Mining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。 举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但Data Mining则不然,执行Data Mining的人将庞大的结帐资料整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于资料中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。 Data Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚或不会被怀疑过的资料型样与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。 |

4楼2006-09-11 10:32:51













回复此楼
6