24小时热门版块排行榜    

查看: 1756  |  回复: 5
当前主题已经存档。

wswswws

银虫 (正式写手)

[交流] 数据挖掘的背景知识

数据挖掘的背景知识
0.什么是数据挖掘?

数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。

数据挖掘能做什么?
1)数据挖掘能做以下六种不同事情(分析方法):
分类 (Classification)
估值(Estimation)
预言(Prediction)
相关性分组或关联规则(Affinity grouping or association rules)
聚集(Clustering)
描述和可视化(Description and Visualization)

2)数据挖掘分类
以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘
直接数据挖掘

目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

间接数据挖掘

目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。

分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘
3)各种分析方法的简介

分类 (Classification)

首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

例子:

a. 信用卡申请者,分类为低、中、高风险

b. 分配客户到预先定义的客户分片

注意: 类的个数是确定的,预先定义好的

估值(Estimation)
估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。
例子:
a. 根据购买模式,估计一个家庭的孩子个数
b. 根据购买模式,估计一个家庭的收入
c. 估计real estate的价值
一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。

预言(Prediction)
通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。

预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

相关性分组或关联规则(Affinity grouping or association rules)

决定哪些事情将一起发生。

例子:

a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)

b. 客户在购买A后,隔一段时间,会购买B (序列分析)

聚集(Clustering)

聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

例子:

a. 一些特定症状的聚集可能预示了一个特定的疾病

b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群

聚集通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

描述和可视化(Description and Visualization)
是对数据挖掘结果的表示方式。 

2.数据挖掘的商业背景
数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。有价值对商业而言,不外乎三种情况:降低开销;提高收入;增加股票价格。
1)数据挖掘作为研究工具 (Research)
2)数据挖掘提高过程控制(Process Improvement)
3)数据挖掘作为市场营销工具(Marketing)
4)数据挖掘作为客户关系管理CRM工具(Customer Relationship Management)

3.数据挖掘的技术背景
1)数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力
2)数据挖掘和机器学习(Machine Learning)
机器学习是计算机科学和人工智能AI发展的产物
机器学习分为两种学习方式:自组织学习(如神经网络);从例子中归纳出规则(如决策树)
数据挖掘由来
数据挖掘是八十年代,投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。选择数据挖掘这一术语,表明了与统计、精算、长期从事预言模型的经济学家之间没有技术的重叠。

3)数据挖掘和统计
统计也开始支持数据挖掘。统计本包括预言算法(回归)、抽样、基于经验的设计等
4)数据挖掘和决策支持系统
数据仓库

OLAP(联机分析处理)、Data Mart(数据集市)、多维数据库

决策支持工具融合
将数据仓库、OLAP,数据挖掘融合在一起,构成企业决策分析环境。
4. 数据挖掘的社会背景
数据挖掘与个人预言:数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上,客户自己可能都不明确自己下一步要作什么。所以,数据挖掘的结果,没有人们想象中神秘,它不可能是完全正确的。
客户的行为是与社会环境相关连的,所以数据挖掘本身也受社会背景的影响。比如说,在美国对银行信用卡客户信用评级的模型运行得非常成功,但是,它可能不适合中国。

[ Last edited by sinapdb on 2006-12-25 at 13:06 ]
回复此楼

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

flyingkylin

新虫 (著名写手)

为虫子服务

2楼2006-11-20 22:07:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

madrid

金虫 (正式写手)

学习中
3楼2006-11-23 10:23:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

attache

有点简单

不过还是谢谢楼主,建议好好总结一下发一个附件上来
4楼2006-11-26 22:54:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

liuman

银虫 (小有名气)

0.5

支持楼主,不过最好能推荐一些有用的本本,有利于我这样的初学者看看!
5楼2006-12-25 12:50:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sinapdb

荣誉版主 (职业作家)

蚂蚁爬爬

1

已经稍微代为整理了一下!!!呵呵!!!
6楼2006-12-25 13:07:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 wswswws 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 材料专硕331求调剂 +4 鲜当牛 2026-03-24 4/200 2026-03-24 15:58 by JourneyLucky
[考研] 299求调剂 +7 某某某某位 2026-03-21 7/350 2026-03-24 15:24 by cuifj
[考研] 求调剂一志愿武汉理工大学材料工程(085601) +5 WW.' 2026-03-23 7/350 2026-03-24 14:50 by sprinining
[考研] 一志愿北京化工大学材料与化工 264分各科过A区国家线 +3 哈哈157349 2026-03-21 3/150 2026-03-24 14:11 by zhyzzh
[考研] 材料与化工考研调剂 +6 孅華 2026-03-22 6/300 2026-03-24 13:31 by 连洋洋洋
[考研] 一志愿重庆大学085700资源与环境,总分308求调剂 +7 墨墨漠 2026-03-23 8/400 2026-03-23 20:36 by Creta
[考研] 生物学一志愿985,分数349求调剂 +6 zxts12 2026-03-21 9/450 2026-03-23 18:37 by macy2011
[考研] 求老师收我 +3 zzh16938784 2026-03-23 3/150 2026-03-23 12:56 by ztnimte
[考研] 北科281学硕材料求调剂 +8 tcxiaoxx 2026-03-20 9/450 2026-03-23 12:16 by tcxiaoxx
[考研] 276求调剂 +3 YNRYG 2026-03-21 4/200 2026-03-23 08:31 by 醉在风里
[考研] 一志愿西安交通大学材料工程专业 282分求调剂 +11 枫桥ZL 2026-03-18 13/650 2026-03-22 20:26 by edmund7
[考研] 298求调剂一志愿211 +3 上岸6666@ 2026-03-20 3/150 2026-03-22 15:50 by ColorlessPI
[考研] 280求调剂 +11 咕噜晓晓 2026-03-18 12/600 2026-03-21 22:40 by ACS Nano——
[考研] 材料工程专硕 348分求调剂 +3 冬辞. 2026-03-17 5/250 2026-03-21 18:47 by 学员8dgXkO
[基金申请] 学校已经提交到NSFC,还能修改吗? 40+4 babangida 2026-03-19 9/450 2026-03-21 16:12 by babangida
[考研] 一志愿西南交大,求调剂 +5 材化逐梦人 2026-03-18 5/250 2026-03-21 00:26 by JourneyLucky
[考研] 22408 344分 求调剂 一志愿 华电计算机技术 +4 solanXXX 2026-03-20 4/200 2026-03-20 23:49 by alg094825
[考研] 南京大学化学376求调剂 +3 hisfailed 2026-03-19 6/300 2026-03-20 23:43 by hisfailed
[考研] A区线材料学调剂 +5 周周无极 2026-03-20 5/250 2026-03-20 21:33 by laoshidan
[考研] 求调剂 +3 @taotao 2026-03-20 3/150 2026-03-20 19:35 by JourneyLucky
信息提示
请填处理意见