24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2194  |  回复: 11
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

wswswws

银虫 (正式写手)

[交流] 数据挖掘的10个常见问题

Q1. Data Mining 和统计分析有什么不同?
硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性:
1.处理大量实际资料更强势,且无须太专业的统计背景去使用Data Mining的工具;
2.资料分析趋势为从大型数据库抓取所需资料并使用专属计算机分析软件,Data Mining的工具更符合企业需求;
3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差别,毕竟Data Mining目的是方便企业末端用者使用而非给统计学家检测用的。

[ Last edited by 幻影无痕 on 2006-10-27 at 07:42 ]
回复此楼

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

幻影无痕

荣誉版主 (知名作家)

小木虫论坛总监

优秀版主

Data Mining在各领域的应用情形为何?


Data Mining在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的资料仓储或数据库,皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。
于销售资料中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例;直效行销强调的分众概念与数据库行销方式在导入Data Mining的技术后,使直效行销的发展性更为强大,例如利用Data Mining分析顾客群之消费行为与交易纪录,结合基本资料,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化行销的目的;制造业对Data Mining的需求多运用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。
近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,Data Mining可以从一些信用不良的客户资料中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用 Data Mining来分析市场动向,并预测个别公司的营运以及股价走向。Data Mining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。
没能力危害祖国,没理由背离人民,没资本好逸恶劳,没本事损人利己,没机会见利忘义,没胆量违法乱纪,没钞票骄奢淫逸,只好愚昧无知了!
8楼2006-09-11 10:36:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 12 个回答

yuefour

金虫 (正式写手)

1

谢谢提供,不错,简单易懂
2楼2005-07-07 18:47:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

幻影无痕

荣誉版主 (知名作家)

小木虫论坛总监

优秀版主


sinapdb(金币+1):thanks for your sharing
Q2. Data Warehousing 和 Data Mining 的关系为何?


若将Data Warehousing(资料仓储)比喻作矿坑,Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的资料,是很难期待Data Mining能挖掘出什么有意义的信息的。
要将庞大的资料转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集资料的工具。「资料仓储」,简单地说,就是搜集来自其它系统的有用资料,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的资料,供决策支持或资料分析使用。从信息技术的角度来看,资料仓储的目标是在组织中,在正确的时间,将正确的资料交给正确的人。
许多人对于Data Warehousing和Data Mining时常混淆,不知如何分辨。其实,资料仓储是数据库技术的一个新主题,在资料科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。
资料仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的资料,特别是指从线上交易系统OLTP(On-Line Transactional Processing)所得来的资料。将这些整合过的资料置放于资料仓储中,而公司的决策者则利用这些资料作决策;但是,这个转换及整合资料的过程,是建立一个资料仓储最大的挑战。因为将作业中的资料转换成有用的的策略性信息是整个资料仓储的重点。综上所述,资料仓储应该具有这些资料:整合性资料(integrated data)、详细和汇总性的资料(detailed and summarized data)、历史资料、解释资料的资料。从资料仓储挖掘出对决策有用的信息与知识,是建立资料仓储与使用Data Mining的最大目的,两者的本质与过程是两码子事。换句话说,资料仓储应先行建立完成,Data mining才能有效率的进行,因为资料仓储本身所含资料是干净(不会有错误的资料参杂其中)、完备,且经过整合的。因此两者关系或许可解读为「Data Mining是从巨大资料仓储中找出有用信息的一种过程与技术」。
没能力危害祖国,没理由背离人民,没资本好逸恶劳,没本事损人利己,没机会见利忘义,没胆量违法乱纪,没钞票骄奢淫逸,只好愚昧无知了!
3楼2006-09-11 10:31:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

幻影无痕

荣誉版主 (知名作家)

小木虫论坛总监

优秀版主

Q3. OLAP 能不能代替 Data Mining?


所谓OLAP(Online Analytical Process)意指由数据库所连结出来的线上查询分析程序。有些人会说:「我已经有OLAP的工具了,所以我不需要Data Mining。」事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而Data Mining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。
举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但Data Mining则不然,执行Data Mining的人将庞大的结帐资料整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于资料中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。
Data Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚或不会被怀疑过的资料型样与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。
没能力危害祖国,没理由背离人民,没资本好逸恶劳,没本事损人利己,没机会见利忘义,没胆量违法乱纪,没钞票骄奢淫逸,只好愚昧无知了!
4楼2006-09-11 10:32:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复(可上传附件)
信息提示
请填处理意见