24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1020  |  回复: 0
当前主题已经存档。

wswswws

银虫 (正式写手)

[交流] 数据挖掘综述

Data Mining

Technologies, Techniques, Tools, and Trends


引言


什么是数据挖掘

数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。

数据挖掘的目的:提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等。

数据挖掘不同的术语和定义:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology.


数据挖掘支持技术

多技术的综合,Figure 1-2


数据挖掘的概念和技术

数据挖掘的结果:分类;序列分析;数据依赖分析;偏差检测

Figure 1-3


数据挖掘的方向和趋势

Figure 1-4


本书组织

Figure 1-6


数据挖掘的发展

Figure 1-10


Part I. Technologies for Data Mining


数据库系统


体系:Figure 2-21,Figure 2-22,Figure 2-23



数据仓库


数据库、数据仓库与数据挖掘的关系:Figure 3-10,Figure 3-11,Figure 3-12



支持数据挖掘的其他技术


统计推理:线性模型,非线性模型。线性回归用于预言;线性差别分析(linear discriminate ananlysis)技术用于分类;非线性技术用于估值;抽样


机器学习:active learning; learning from prior knowledge; learning incrementally。概念学习(concept learning);神经元网络;遗传算法;决策树;归纳逻辑设计(inductive logic programming)


可视化:可视化表达数据挖掘结果;将数据挖掘技术应用于可视化;使用可视化技术完善数据挖掘技术;使用可视化技术steer数据挖掘过程。


并行处理:数据挖掘算法 + 并行处理技术 = 并行数据挖掘算法


决策支持:Figure 4-6,Figure 4-7



数据挖掘的体系结构


综合技术体系结构:Figure5-1(标准接口和接口定义语言),Figure5-3


功能体系结构:Figure5-4,Figure5-5


系统体系结构:ODBC/CORBA Figure5-8,Figure5-9,三层体系结构Figure5-10,封装对象:Figure5-11


Part II. Techniques and Tools for Data Mining


数据挖掘过程


数据挖掘项目: 需求;合适的数据;工具;人员;资金。


例子


超市分析交易数据,安排货架上货物摆布,以提高销售


信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些没有


调查局分析行为模式,判断哪些人对受保护的信息具有潜在威胁


药房分析医师的处方,判断哪些医师愿意购买他们的产品


保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的


汽车公司分析不同地方人的购买模型,针对性地发送给客户喜欢的汽车的手册


人才中心分析不同客户的工作历史,发送客户潜在的感兴趣的工作信息


访问没有归类的竞争对手数据库,推断出潜在的归类信息


教育学院分析学生历史信息,决定哪些人愿意参加培训,发送手册给他们


核武器工厂分析历史核查信息记录,决定没有采用哪项预防措施将导致核灾难


广告公司分析人们购买模式,估计他们的收入和孩子数目,作为潜在的市场信息


调查局分析不同团体的旅游模式,决定不同团体之间的关联


医师分析病人历史和当前用药情况,不仅诊断用药而且预测潜在的问题


税务局分析不同团体的交所得税的记录,发现异常模型和趋势


调查局分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪

数据挖掘应用领域 Figure 6-1


数据挖掘的步骤:Figure 6-3,修剪结果:Figure 6-4;管理因素


挑战:Figure 6-5


用户接口方面:研究较少;可视化



数据挖掘的结果、方法和技术


数据挖掘应用步骤:Figure 7 – 1


数据挖掘的结果(任务,类型)


分类


Estimation: 例子,分析消费模型,估计个人收入和孩子数目


预言 例子,根据个人教育、当前工作、行业趋势,预言2005年工资


Affinity Grouping(关联规则,Correlation)


聚集


偏差分析deviation


异常检测 anomaly:fraud detection ; medical illness detection …


数据挖掘方法 Figure 7-3


自顶向下top-down:以假设开始


自下而上bottom-up:直接(supervised learning)-提问;间接


混合方法


数据挖掘技术和算法


market basket analysis:智能搜索,超市


决策树:分类


神经网络:聚集,偏差分析…


归纳逻辑程序


link analysis, automatic cluster detection techniques ,nearest neighbor techniques


遗传算法


模糊逻辑


约略集rough set


concept learning概念学习


简单的基于规则的推理



逻辑程序作为数据挖掘技术


演绎逻辑程序


归纳逻辑程序


ILP作为数据挖掘技术


ILP应用 Figure 8 –6



数据挖掘工具


数据挖掘工具分类 Figure 9-1


原型工具


新的功能模型

开发新的模型、框架:Stanford University; MITRE Corporation ; Hitachi Corporation ; Rutgers University

目的:综合数据挖掘和数据库管理

项目名称:Queryflocks (Stanford University,MITRE Corporation,Hitachi Corporation),开发支持数据挖掘查询方法和优化技术。

Rutgers University,数据挖掘查询语言


新的信息服务

挖掘不同类型的数据(多媒体)

Text数据挖掘:Queryflocks;Cheng and Ng ,University of Arizona;Feldman,Bar-Ilan University in Israel

Image数据挖掘:SKICAT,JPL(Jet Propulsion Lab);Clifton,MITRE Co.;University of British Columbia

WEB数据挖掘:University of Michigan ;University of Minnesota


Scalability

数据挖掘算法的可度量性:The Massive Digital Data System Project;Magnify Inc.;Thinking Machines Co.;SGI;IBM’s YorkTown Heights research laboratory


结果的可理解性

GTE Lab;Simon Fraser University;University of Massachusetts at Lowell


大规模的项目

IBM Quest project, Agarwal

Simon Fraser University’s DBMINER, Han


商业工具


Red Brick: DATAMIND


Lockheed Martin: RECON


IBM: INTELLIGENT MINER


Information Discovery: IDIS


Neo Vista: DECISION SERIES


Part III. Trends in Data Mining


挖掘分布式、异质、遗留数据库


分布式数据库:Figure 10-1,Figure 10-2


异质数据库的互操作:Figure 10-4


遗留数据库的迁移:Figure 10-5


挖掘分布式、异质、遗留数据库


分布式数据挖掘:Figure 10-6,Figure 10-9


异质数据库挖掘:Figure 10-10,Figure 10-11,Figure 10-12,Figure 10-13,Figure 10-14 合作数据挖掘,中间件 Figure 10-16


遗留数据库挖掘:Figure 10-17,Figure 10-18,系统重建Figure 10-19


多媒体数据挖掘


两种方法:抽取结构,挖掘结构数据;直接挖掘多媒体数据


多媒体数据库:体系结构;数据建模;MM-DBMS功能:数据操纵,事务管理,元数据管理;存储管理;一致性和完整性。


挖掘多媒体数据


Text挖掘

半结构,非结构;

转换成结构化数据,在结构化数据上挖掘(文本—关系数据库)Figure 11-10

数据挖掘与信息检索结合Figure 11-11

开发直接挖掘非结构化数据的工具Figure 11-12


Image 挖掘

Clifton 抽取元数据挖掘;Unusual pattern; classify, cluster, associate image


Video 挖掘

转化Figure 11-14;直接挖掘Figure 11-15


Audio 挖掘

与Video类似,Text转化Figure 11-16;直接挖掘Figure 11-17


挖掘综合类型

与异质数据库类似,MDP Multimedia Distributed Processor

先综合后挖掘Figure 11-18, 先挖掘后综合Figure 11-19



数据挖掘和WWW


Internet 数据库管理和数字图书馆


Web数据挖掘


分类:Figure 12-12


挖掘Web数据:Figure 12-6;Figure 12-7;Figure 12-8;Figure 12-9;Figure 12-10


挖掘访问模式:Figure 12-11



数据挖掘的安全和隐私问题


inference 问题


mining , warehouse , inference


隐私问题:Figure 13-7



数据挖掘的元数据


元数据


挖掘和元数据


元数据挖掘Figure 14-4


mining and repository Figure 14-5


多媒体数据和元数据Figure 14-6


Web数据挖掘和元数据Figure 14-7


中心容器Figure 14-8(数据库中的数据很难直接挖掘)




总结和方向


总结

Chap 1:引言

概念;结果,技术,方法;本书三层框架- 所涉及的技术,技术和工具,趋势

Part I :支持数据挖掘的技术

Chap 2:数据库系统

数据模型;数据库体系结构;数据库功能;数据库和数据挖掘的结合

Chap 3:数据仓库

数据仓库定义、技术、功能;开发数据仓库;数据仓库、数据库管理和数据挖掘的关系

Chap 4:其他支持的技术:统计、机器学习、可视化、并行处理、和决策支持

Chap 5:数据挖掘不同的体系结构:技术;功能;Client/Server

Part II :数据挖掘技术和工具

Chap 6:数据挖掘过程

例子(偏差分析/关联规则/分类等);数据挖掘的原因;数据挖掘步骤;用户接口方面

Chap 7:数据挖掘的结果(任务),方法和技术

结果-聚集/分类等;方法论-自顶而下/自下而上/混合;技术-决策树/神经网络/逻辑归纳

Chap 8:逻辑归纳inductive logic programming

演绎逻辑编程;逻辑归纳编程;ILP作为数据挖掘技术及其缺陷

Chap 9:数据挖掘工具

研究原型-新的功能模型/新的信息服务/结果可理解性/可度量性/大规模项目;商业工具

Part III :数据挖掘趋势

Chap 10:挖掘分布式、异质、遗留数据库

新的研究领域;问题;需要做的工作

Chap 11:多媒体数据挖掘

多媒体数据库简介;在多媒体数据上的数据挖掘 – 文本/图象/视频/音频数据;方向

Chap 12:Web数据挖掘

Web数据管理;Internet数据库和数字图书馆;WEB数据挖掘 – Internet数据库(构建数据仓库和多媒体数据挖掘)/用户浏览模式

Chap 13:数据挖掘的安全和隐私问题

推论问题inference problem;处理推论问题的方法;逻辑归纳和推论;隐私问题

Chap 14:数据挖掘的元数据

元数据简介;挖掘元数据;利用元数据挖掘数据



挑战


不完全和不精确的数据

标记数据,计算机处理,存储数据库,创建数据仓库,数据清洁,解决不确定性,格式化数据


不充分的工具和资源

数据挖掘工具不成熟


剪除结果和理解结果的能力

prune mining result,可视化,数据的可理解性


多语言挖掘 : 处理多种语言的工具


数据挖掘算法的可度量性


数据挖掘项目管理上的支持


Part III分布式,异质,遗留数据库/多媒体数据/WEB数据/安全和隐私问题/元数据挖掘



方向


数据理解


不完全和不精确的数据


多语言挖掘


多策略学习


可度量性Scalability (大规模数据)


更好的数据挖掘技术


数据挖掘理论 (艺术 – 理论)


技术综合


分布式,异质,和遗留数据库挖掘


多媒体数据挖掘


WEB挖掘


元数据挖掘


数据挖掘的安全和隐私



归纳和建议


数据挖掘是多技术的综合: 数据管理,机器学习,统计推理,高性能计算,决策支持,可视化


好的数据是数据挖掘的关键


数据挖掘研究处于初级阶段 (98) : 期望不同的方法论和OO设计和分析技术的应用

如 UML应用在数据挖掘上


实际数据挖掘应用的开发有助于对数据挖掘的理解


数据挖掘项目需要管理和交流


利用各种数据挖掘产品和原型的商业和研究的材料


数据挖掘是一个机遇,也是一个挑战

[ Last edited by 幻影无痕 on 2006-11-18 at 07:45 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 wswswws 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见