版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

汕头大学海洋科学接受调剂

返回列表

当前主题已经存档。

当前只显示满足指定条件的回帖，点击这里查看本话题的所有回帖

wswswws

银虫 (正式写手)

应助: 0 (幼儿园)
金币: 48.7
散金: 970
红花: 2
帖子: 601
在线: 425.8小时
虫号: 19185
注册: 2003-07-13
专业: 制造系统与自动化

[交流] 数据挖掘的10个常见问题

Q1. Data Mining 和统计分析有什么不同？
硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法，也都是由统计学者根据统计理论所发展衍生，换另一个角度看，Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢？主要原因在相较于传统统计分析而言，Data Mining有下列几项特性：
1.处理大量实际资料更强势，且无须太专业的统计背景去使用Data Mining的工具；
2.资料分析趋势为从大型数据库抓取所需资料并使用专属计算机分析软件，Data Mining的工具更符合企业需求；
3. 纯就理论的基础点来看，Data Mining和统计分析有应用上的差别，毕竟Data Mining目的是方便企业末端用者使用而非给统计学家检测用的。

[ Last edited by 幻影无痕 on 2006-10-27 at 07:42 ]

回复此楼

» 猜你喜欢

人工智能320调剂08工类还有机会吗已经有17人回复
考研英一数一338分已经有10人回复
求助调剂，跨调已经有15人回复
085600材料与化工329分求调剂已经有20人回复
085600材料与化工349分求调剂已经有15人回复
求调剂已经有13人回复
一志愿华南理工大学331分材料求调剂已经有11人回复
271求调剂已经有40人回复
求调剂学校已经有3人回复
332求调剂已经有15人回复

1楼 2005-07-07 16:20:35

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

幻影无痕

荣誉版主 (知名作家)

小木虫论坛总监

应助: 2 (幼儿园)
贵宾: 8.003
金币: 16253.5
散金: 200
红花: 5
沙发: 5
帖子: 9634
在线: 58.2小时
虫号: 245777
注册: 2006-04-29
性别: GG
专业: 催化化学
管辖: 地学

Data Mining包含哪些主要功能？

Data Mining实际应用功能可分为三大类六分项来说明：Classification和Clustering属于分类区隔类；Regression和Time-series属于推算预测类；Association和Sequence则属于序列规则类。
Classification是根据一些变量的数值做计算，再依照结果作分类。（计算的结果最后会被分类为几个少数的离散数值，例如将一组资料分为 "可能会响应" 或是 "可能不会响应" 两类）。Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的资料来研究它们的特征，然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类资料可能是来自我们的现有的客户资料，或是将一个完整数据库做部份取样，再经由实际的运作来测试；譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model，再利用这个Model来对数据库的其它资料或是新的资料作分类预测。
Clustering用在将资料分群，其目的在于将群间的差异找出来，同时也将群内成员的相似性找出来。Clustering与Classification不同的是，在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。
Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量，特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具，推估预测的模式已不在止于传统线性的局限，在预测的功能上大大增加了选择工具的弹性与应用范围的广度。
Time-Series Forecasting与Regression功能类似，只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性，譬如时间的周期性、阶层性、季节性以及其它的一些特别因素（如过去与未来的关连性）。
Association是要找出在某一事件或是资料中会同时出现的东西。举例而言，如果A是某一事件的一种选择，则B也出现在该事件中的机率有多少。（例如：如果顾客买了火腿和柳橙汁，那么这个顾客同时也会买牛奶的机率是85%。）
Sequence Discovery与Association关系很密切，所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔（例如：如果A股票在某一天上涨12%，而且当天股市加权指数下降，则B股票在两天之内上涨的机率是 68%）。

赞一下

回复此楼

没能力危害祖国，没理由背离人民，没资本好逸恶劳，没本事损人利己，没机会见利忘义，没胆量违法乱纪，没钞票骄奢淫逸，只好愚昧无知了！

7楼2006-09-11 10:34:55

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

查看全部 12 个回答

yuefour

金虫 (正式写手)

应助: 0 (幼儿园)
贵宾: 9.5
金币: 1310.7
帖子: 838
在线: 17小时
虫号: 64621
注册: 2005-04-16
性别: GG
专业: 中医内科

1

谢谢提供，不错，简单易懂

赞一下

回复此楼

2楼2005-07-07 18:47:05

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

幻影无痕

荣誉版主 (知名作家)

小木虫论坛总监

应助: 2 (幼儿园)
贵宾: 8.003
金币: 16253.5
散金: 200
红花: 5
沙发: 5
帖子: 9634
在线: 58.2小时
虫号: 245777
注册: 2006-04-29
性别: GG
专业: 催化化学
管辖: 地学

★
sinapdb(金币+1):thanks for your sharing

Q2. Data Warehousing 和 Data Mining 的关系为何？

若将Data Warehousing（资料仓储）比喻作矿坑，Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术，也不是点石成金的炼金术，若没有够丰富完整的资料，是很难期待Data Mining能挖掘出什么有意义的信息的。
要将庞大的资料转换成为有用的信息，必须先有效率地收集信息。随着科技的进步，功能完善的数据库系统就成了最好的收集资料的工具。「资料仓储」，简单地说，就是搜集来自其它系统的有用资料，存放在一整合的储存区内。所以其实就是一个经过处理整合，且容量特别大的关系型数据库，用以储存决策支持系统（Design Support System）所需的资料，供决策支持或资料分析使用。从信息技术的角度来看，资料仓储的目标是在组织中，在正确的时间，将正确的资料交给正确的人。
许多人对于Data Warehousing和Data Mining时常混淆，不知如何分辨。其实，资料仓储是数据库技术的一个新主题，在资料科技日渐普及下，利用计算机系统帮助我们操作、计算和思考，让作业方式改变，决策方式也跟着改变。
资料仓储本身是一个非常大的数据库，它储存着由组织作业数据库中整合而来的资料，特别是指从线上交易系统OLTP（On-Line Transactional Processing）所得来的资料。将这些整合过的资料置放于资料仓储中，而公司的决策者则利用这些资料作决策；但是，这个转换及整合资料的过程，是建立一个资料仓储最大的挑战。因为将作业中的资料转换成有用的的策略性信息是整个资料仓储的重点。综上所述，资料仓储应该具有这些资料：整合性资料（integrated data）、详细和汇总性的资料(detailed and summarized data)、历史资料、解释资料的资料。从资料仓储挖掘出对决策有用的信息与知识，是建立资料仓储与使用Data Mining的最大目的，两者的本质与过程是两码子事。换句话说，资料仓储应先行建立完成，Data mining才能有效率的进行，因为资料仓储本身所含资料是干净(不会有错误的资料参杂其中）、完备，且经过整合的。因此两者关系或许可解读为「Data Mining是从巨大资料仓储中找出有用信息的一种过程与技术」。

赞一下(5人)

回复此楼

没能力危害祖国，没理由背离人民，没资本好逸恶劳，没本事损人利己，没机会见利忘义，没胆量违法乱纪，没钞票骄奢淫逸，只好愚昧无知了！

3楼2006-09-11 10:31:50

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

幻影无痕

荣誉版主 (知名作家)

小木虫论坛总监

应助: 2 (幼儿园)
贵宾: 8.003
金币: 16253.5
散金: 200
红花: 5
沙发: 5
帖子: 9634
在线: 58.2小时
虫号: 245777
注册: 2006-04-29
性别: GG
专业: 催化化学
管辖: 地学

Q3. OLAP 能不能代替 Data Mining？

所谓OLAP（Online Analytical Process）意指由数据库所连结出来的线上查询分析程序。有些人会说：「我已经有OLAP的工具了，所以我不需要Data Mining。」事实上两者间是截然不同的，主要差异在于Data Mining用在产生假设，OLAP则用于查证假设。简单来说，OLAP是由使用者所主导，使用者先有一些假设，然后利用OLAP来查证假设是否成立；而Data Mining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时，使用者是自己在做探索（Exploration），但Data Mining是用工具在帮助做探索。
举个例子来看，一市场分析师在为超市规划货品架柜摆设时，可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品，接着便可利用OLAP的工具去验证此假设是否为真，又成立的证据有多明显；但Data Mining则不然，执行Data Mining的人将庞大的结帐资料整理后，并不需要假设或期待可能的结果，透过Mining技术可找出存在于资料中的潜在规则，于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现，这是OLAP所做不到的。
Data Mining常能挖掘出超越归纳范围的关系，但OLAP仅能利用人工查询及可视化的报表来确认某些关系，是以Data Mining此种自动找出甚或不会被怀疑过的资料型样与关系的特性，事实上已超越了我们经验、教育、想象力的限制，OLAP可以和Data Mining互补，但这项特性是Data Mining无法被OLAP取代的。

赞一下

回复此楼

没能力危害祖国，没理由背离人民，没资本好逸恶劳，没本事损人利己，没机会见利忘义，没胆量违法乱纪，没钞票骄奢淫逸，只好愚昧无知了！

4楼2006-09-11 10:32:51

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

查看全部 12 个回答

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[考研] 08工学 309分求调剂 +7	Yin DY 2026-04-08	7/350	2026-04-13 22:50 by pies112
[考研] 300分求调剂（085501机械专硕，本科扬大） +8	xu@841019 2026-04-11	9/450	2026-04-13 21:36 by xu@841019
[考研] 279学硕食品专业求调剂院校 20+6	孤独的狼爱吃羊 2026-04-12	23/1150	2026-04-13 20:42 by biomen
[考研] 一志愿中国科学院上海有机所，有机化学356分找调剂 +12	Nadiums 2026-04-09	12/600	2026-04-13 08:50 by lhj2009
[考研] 366求调剂 +9	不知名的小卅 2026-04-11	9/450	2026-04-13 01:19 by 幸免 ..
[考研] 一志愿浙大生物325分求调剂 +9	zysheng 2026-04-12	9/450	2026-04-12 22:31 by yuyin1233
[考研] 0831生医工第一轮调剂失败求助 +12	小熊睿睿_s 2026-04-11	16/800	2026-04-12 16:28 by 钰璞
[考研] 一志愿郑州大学 22408 305分求调剂 +5	安小满zzz 2026-04-08	5/250	2026-04-12 00:41 by 蓝云思雨
[考研] 086003调剂求助 +21	苏弋万 2026-04-09	22/1100	2026-04-11 20:25 by dongdian1
[考研] 085410 273分调剂 +4	X1999 2026-04-09	4/200	2026-04-11 13:05 by pies112
[考研] 0859，337求调剂 +4	研s. 2026-04-10	4/200	2026-04-11 11:34 by caotw2020
[考研] 调剂化学 307 +21	73372112 2026-04-09	23/1150	2026-04-10 23:53 by wj165256
[考研] 263能源动力专硕求调剂 +3	加大号饭盒袋 2026-04-10	3/150	2026-04-10 22:23 by 286640313
[考研] 机械还有还有名额吗？太难了 +6	笑笑袁 2026-04-10	6/300	2026-04-10 11:54 by 高维春
[考研] 江苏大学工科调剂捡漏 +3	Evan_Liu 2026-04-09	5/250	2026-04-10 10:22 by Evan_Liu
[考研] 332，085601求调剂 +12	ydfyh 2026-04-09	14/700	2026-04-09 17:28 by wp06
[考研] 调剂 +12	月@163.com 2026-04-08	12/600	2026-04-09 14:27 by rl1980
[考研] 085801 总分275 本科新能源求调剂 +8	bradoner 2026-04-08	9/450	2026-04-09 13:43 by only周
[考研] 求调剂 +13	柒luck 2026-04-07	13/650	2026-04-08 22:46 by 猪会飞
[考研] 325 调剂 +6	QQ小虾 2026-04-07	6/300	2026-04-07 15:17 by Ccclqqq