24小时热门版块排行榜    

查看: 317  |  回复: 2

小小恶

铁虫 (初入文坛)

[求助] 汉译英

随着各个领域数据数量的急剧增长,对从海量数据中发现有用的信息和知识的需求越来越迫切,而这一需求导致了数据挖掘技术的出现和发展。数据挖掘的广义定义是:数据挖掘是从存放在数据库、数据仓库或其他信息库的大量数据中发现有趣知识的过程[1]。它采用机器学习、统计学、模式识别和数据可视化等技术,从数据中发现知识、规律或高层信息,并且可以使用户从不同角度观察或浏览它们,并将获得的信息和知识用于商业决策、金融分析、过程控制、企业管理、信息推荐和查询处理等。
数据挖掘从海量数据中可以发现的方法主要有聚类、关联规则、概念描述、离群点分析、分类和预测、演变分析等。其中,关联规则是数据挖掘可以发现的方法之一,发现关联规则的过程就是关联规则挖掘。随着关联规则挖掘技术的日渐成熟和广泛应用,人们对数据中隐藏的关联规则越来越有兴趣,使得关联规则挖掘的研究在近年来受到广泛的关注。但是在实际应用中,数据库总是处于不断的变化之中,比如增加数据到数据库中或者对现有的数据进行更新操作,随着数据的不断变化,用户要求挖掘出来的关联规则能够反映数据库当前状态,从而为市场分析和决策支持等提供有用的理论依据。因此针对数据变化时关联规则更新的研究,由于具有非常重要的理论价值和实际应用价值,成为关联规则挖掘的一个重要研究方向。
目前,关联规则更新算法大多致力于增量更新本身,而忽略了对大局的把握,人们只追求算法本身的高效,却没考虑是否能得到新的规则,若没有发现新的规则,那么人们所做的只是无用功。改进后的算法虽然一定程度上提高了关联规则更新的效率,但是大多没有考虑关联规则更新时机的问题,直接将其用于实时环境中的模式更新,容易造成不必要的模式更新,同时频繁进行关联规则更新耗费的系统资源较大。因此,人们开始注意到选择合适的关联规则更新时机的重要性,关联规则更新时机的研究成为关联规则更新算法研究的热点之一,提出了许多关联规则更新时机判定方法。现有的关联规则更新时机判定方法,一般采用数据更新前后数据集的变化量或者其中关联规则的变化量确定关联规则的更新时机。其中丁虎提出的基于数据仓库的关联规则抽样算法[2]给出了一种基于完全频繁项集的关联规则差异度判定方法,该计算方法需要充分的频繁项集计算,能够充分的表达关联规则的差异度。但该方法在判定更新时机时需要对新增数据集进行多次扫描,这不利于处理大数据集和长频繁项集。本文将在此判定方法的基础上加以改进,使其更加的准确,效率进一步提高。

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

小小恶

铁虫 (初入文坛)

2楼2015-06-22 10:41:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

小小恶

铁虫 (初入文坛)

随着各个领域数据数量的急剧增长,对从海量数据中发现有用的信息和知识的需求越来越迫切,而这一需求导致了数据挖掘技术的出现和发展。数据挖掘的广义定义是:数据挖掘是从存放在数据库、数据仓库或其他信息库的大量数据中发现有趣知识的过程[1]。它采用机器学习、统计学、模式识别和数据可视化等技术,从数据中发现知识、规律或高层信息,并且可以使用户从不同角度观察或浏览它们,并将获得的信息和知识用于商业决策、金融分析、过程控制、企业管理、信息推荐和查询处理等。
3楼2015-06-22 10:43:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 小小恶 的主题更新
信息提示
请填处理意见