优秀研究生学位论文题录展示

多数据库中例外模式挖掘研究

专 业: 计算机软件与理论
关键词: 多数据库
分类号: U21  TP3
形 态: 共 45 页 约 29,475 个字 约 1.41 M内容
阅 读: 全文阅读说明

内容摘要


数据挖掘Data Mining是人工智能与数据库领域当前研究的一个热点,引起了大量学者与专家的关注。

数据挖掘有许多功能,比如关联分析、聚类分析、例外分析等,其中例外分析也称例外模式挖掘,是数据挖掘的一个重要研究课题。

一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的模型的数据对象被称为异类Outlier或例外Exception。

以前许多数据挖掘算法在正式进行数据挖掘之前都把例外对象当作噪声而将其排除在数据挖掘的分析处理范围之外。

但是从知识发现的角度来看,在一些应用场合,如电子商务欺诈行为的检测,银行信用卡欺诈行为的检测等,那些很少发生的事情往往比经常发生的事情更有趣、更有研究价值。

因此,例外模式挖掘是一项重要且有意义的研究工作。

目前,例外模式挖掘的研究工作主要集中在单个数据库上。

随着分布式数据库技术及计算机网络技术的不断发展,多数据库系统已经应用于现实生活中,比如一个总公司需要为分布在不同地方的多个子公司分别建立数据库,从而构成一个多数据库系统。

总决策者需要分析分布在不同分支的多个数据库,从而做出更加合理有效的决策。

从这些分布在不同分支的多个数据库中挖掘出的有些模式是仅被少数数据库强烈支持的,这样的模式也即例外模式,它们反映了子公司的个性,适用于决策者为这些少数的子公司根据其个性制定出特殊的决策,另一方面,这些例外模式也可能正是事物未来的发展方向,因此,多数据库中的例外模式挖掘也有着重要的现实意义。

本文首先介绍了数据挖掘及多数据库中的数据挖掘的概念及现有的技术,并在现有工作的基础上,提出了一些新想法与新见解,并通过实验验证了所提出方法的可行性与有效性。

本论文的主要工作分三部分展开:

(1)在现有文献所研究的低选票例外模式挖掘的基础之上,提出一种基于数据约束的挖掘方法,该方法以用户的兴趣为导向,首先选择用户感兴趣的数据对象,然后分别在各个局部数据库中找出对应的数据构成新的数据库。

在新的多数据库中,先局部挖掘各个数据库,得到局部模式集,再进行综合,得到最终的全局低选票例外模式。

本文还用实验验证了该方法的有效性。

(2)提出一种新的多数据库中的例外模式的定义——高选票例外模式,并提出一种挖掘方法。

该方法主要用到了规则的聚类技术,一方面将相似的规则合并,另一方面将规则进行分类。

聚类之后,在每个类中,我们先找出高选票模式,即选票数大于平均选票数的模式,然后再在高选票模式中利用方差能够反映数据波动程度的性质挖掘出最终的高选票例外模式。

实验证明,我们所提出的方法是可行且有效的。

(3)从客观和主观两方面分别分析了现有的一些对模式的评价方法,并提出对多数据库中模式评价的两种客观性度量。

随着计算机存储技术和网络技术的飞速发展,计算机的数据处理能力和数据存储能力不断提高1,各行各业都开始采用计算机及相应的信息技术进行管理和运营,越来越多的数据被存储到计算机中,人们所面临的是迅速扩张的数据海洋。

最近几十年产生了很多超大型的数据库,有贴近人们生活的超级市场销售、银行信用卡、电话呼叫、政府统计数据,也有较为抽象的天文学、粒子物理、化学、医药、生物基因数据库等。

例如:

英国大的信用卡公司每年将会有350,000,000 笔业务;AT&T 每天大约有200,000,000 个长途呼叫。

除此之外,互联网的发展更是为我们带来了海量的数据和信息。

为了更好地管理和应用这些数据,数据库和数据仓库2技术应运而生。

它为有效地收集和存储数据提供了方便,也为数据的分析和管理提供了有力的手段。

快速增长的海量数据收集、存放在大型和大量的数据库中,人们必须借助于强有力的工具才能理解和利用这些数据。

然而,与日益成熟的数据库管理技术和软件工具相比,人们所依赖的数据分析工具却无法有效地为决策者提供决策支持所需要的相关知识,从而形成了“信息丰富而知识贫乏”的窘境。

因此,有效地利用和处理大量的数据是当今计算机技术领域一个重要的研究课题。

尽管传统的数据库管理系统(DBMS)提供了比较完善的存取和查询功能,但仍不能满足人们对大量数据进行知识的抽取、发现数据间隐藏的依赖关系,从而为决策提供科学的支持。

由于决策者缺乏从海量数据中提取有价值的知识的工具,因此重要的决策常常不是基于数据库中丰富的数据,而是基于决策者的直觉。

但这常常会有偏差和错误,并且耗时、费用高。

数据库中的知识发现3(Knowledge Discovery in Databases, KDD)和数据挖掘(Data Mining, DM)正是在这种情况下产生和发展起来的一种新型的数据分析技术,它以一种全新的概念改变着人类利用数据的方式,显示出强大的生命力,成为近年来人工智能和数据库应用等领域的研究热点。

数据挖掘和知识发现使数据处理技术进入了一个更高级的阶段。

它不仅能对过去的数据进行查询,并且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地作出理想的决策、预测未来的发展趋势等。

数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据库(Database)技术、人工智能(Artificial Intelligence)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(Knowledge Engineering)、面向对象方法(Object-OrientedMethod)、信息检索(Information Retrieval)、高性能计算(High-Performance Computing)以及数据可视化(Data Visualization)等最新技术的研究成果。

经过十几年的研究,产生了许多新概念和方法。

特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展..……

全文目录


文摘
英文文摘
第一章 前 言
第二章 低选票例外模式挖掘研究与实现
第三章 高选票例外模式挖掘研究与实现
第四章 模式的评价
第五章 总结与进一步工作
参考文献
致 谢

相似论文

  1. 铁路运输特定经由算法的研究与实现,66页,U212.32
  2. Deep Web查询接口集成及搜索策略研究,40页,TP311.13
  3. 面向字幕帧的视频图像文本识别,40页,TP391.4
  4. 基于节点能力和品质的P2P网络信任模型,34页,TP393.08
  5. 基于用户信誉值防御DDoS攻击的协同模型,45页,TP393.08
  6. 基于领域本体的用户查询词扩展方法的研究,68 页,TP391.3
  7. 基于形式概念分析的元搜索引擎的结果聚合研究,67 页,TP391.3
  8. 基于用户兴趣的分布式协同过滤推荐,59 页,TP393.02
  9. 基于显现模式的懒惰式贝叶斯分类方法,62 页,TP311.131
  10. 基于视频序列的车辆检测与跟踪算法研究与应用,45页,U279.3
  11. 面向多Agent设计与分析形式化方法的研究——面向Agent的G-Net列车群运行模型的研究,36页,U284.59 TP311.5
  12. 跨平台数据整合策略:铁路货运系统的综合应用,56页,U29-39 TP311.52
  13. 京沪高速动车底调度仿真系统的研究与实现,74页,U292.4
  14. 计算机编制机车周转图系统优化设计,78页,U292.41 TP311.5
  15. 基于短信平台的铁路订票模型研究,87页,U293.221
  16. 城市轨道交通系统的闸机中图像处理与识别技术,52页,U293.221
  17. 轨道交通闸机智能识别系统硬件平台和控制程序的研制,51页,U293.221 TP311.52
  18. 基于GPU的流场可视化技术研究,58页,TP317.1 G47
  19. 无中心智能流程应用中的若干问题研究,138页,TP317.1 TP393.09
  20. 智能流程异常处理的若干关键技术研究,146页,TP393.09 F719
中图分类: > U21 > 交通运输 > 铁路运输 > 铁路线路工程
其他分类: > TP3 > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术

© 2012 book.hzu.edu.cn