优秀研究生学位论文题录展示

数据流挖掘分类方法关键技术研究

专 业: 计算机科学与技术
关键词: 数据流 数据挖掘 分类方法
分类号: TP301
形 态: 共 107 页 约 70,085 个字 约 3.352 M内容
阅 读: 全文阅读说明

内容摘要


随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。

与此形成鲜明对比的是,对人们决策有价值的知识却非常匾乏。

但是如何从海量数据中获取有价值的知识以指导人们得决策,是当前数据分析领域所面临的主要的热点和难点问题。

知识发现与数据挖掘正是在这一背景下诞生的一门新学科。

数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点。

由于数据流的快速到达和数据规模巨大等原因,传统数据挖掘技术难以满足其要求,也面临着一些新的挑战。

分类技术是数据挖掘中一个非常重要的研究领域,也是数据挖掘领域商业应用最成功的技术之一。

数据流模型自身的特点给数据流环境下的分类技术带来了新的挑战,本文的研究工作聚焦于数据流分类技术。

从提高分类速度、提高分类精度和处理概念漂移三个方面着手,提出了一系列的高效算法。

针对数据流挖掘中连续属性的处理问题,我们在VFDT的基础上提出了基于排序二叉树的分类算法VFDTb,通过改进VFDTc的信息增益函数计算方式,该算法有效地减少了连续属性最佳划分节点选取的时间开销,从而在保持决策树大小和分类精度不变的基础上提高了分类速度。

实验结果显示:

相比VFDT, VFDTb的分类速度平均提高25%。

线索化二叉排序树是一种高效的动态插入排序结构,基于该结构,在VFDT和VFDTc的基础上,我们提出了一种分类新的分类算法VFDTt,理论分析表明该算法具有更低的时间复杂度:(1)相比VFDT, VFDTt的样本插入时间复杂度由O(n2)降低到O(nlogn)。

当新样本到达时,VFDTc需要更新。

(logn)个属性树结点,而VFDTt只需要更新相应的一个结点即可;(2)改进了VFDTc中连续属性最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的结论,相比VFDTc, VFDTt只需从更少的备选划分节点中选取最佳结点,备选划分节点数由O(n)降低到O(logn)。

模糊决策树是决策树理论和模糊理论的有效结合,它既具有决策树分类精度高、计算量小和生成模型容易理解的优点,也具有模糊理论在处理不确定信息方面的优点。

本文通过对模糊决策树研究领域的分析,指出了模糊决策树的优点和可能存在的问题,并分别从属性选择标准、模糊决策树构造及停止标准三个方面对相关研究工作分别进行了深入的研究与探讨。

在此基础上,提出了数据流挖掘环境下的增量模糊决策树算法IFVFDT,通过和VFDTt(或VFDTb)的有效结合,该算法利用平滑离散化方法处理连续属性中的噪声数据问题,在保持分类速度的同时提高了分类精度。

实验结果显示:

IFVFDT比VFDT平均执行时间减少16.66%,IFVFDt比VFDTt平均执行时间减少8.87%;在10%噪声数据情况下,VFDT的分类错误率逼近于12.5%,而IFVFDT的分类错误率逼近于8%。

由于概念漂移的存在往往导致分类模型精度的下降,概念漂移问题也成为数据流挖掘中需要解决的最重要问题之一。

Hulten等的CVFDT利用备选子树的方法,有效地处理了概念漂移问题。

在CVFDT的基础上,我们提出了基于扩展哈希表的概念漂移处理算法HashCVFDT。

该算法实现了概念漂移处理所需要的样本高效删除。

通过哈希表和链表的有效结合,不仅保持了哈希表所具有的插入和查找快速的优点,而且使扩展哈希表的高效有序输出。

该算法在样本插入与删除、划分节点的选取方面都具有很好的效率。

实验结果表明,该算法对概念漂移问题的处理具有很好的扩展性和稳定性..……

全文目录


文摘
英文文摘
论文说明:图表目录
第一章 绪论
1.1数据挖掘技术简介
1.1.1数据挖掘技术的由来
1.1.2数据挖掘的定义和任务
1.1.3数据挖掘的过程
1.1.4数据挖掘的研究历史及研究前沿
1.2数据流挖掘的兴起
1.3数据流挖掘中的分类技术
1.3.1分类技术基础
1.3.2增量式学习方法
1.4数据流挖掘分类技术面临的挑战
1.5论文的工作与结构
1.5.1论文的工作
1.5.2论文的组织结构
第二章 数据流挖掘分类技术的相关研究
2.1数据流稳态分布的分类方法
2.1.1 VFDT
2.1.2 VFDTc
2.1.3 NIPDT
2.1.4 IFDT
2.2数据流带概念漂移的分类方法
2.2.1 FLORA框架
2.2.2 CVFDT
2.2.3离线C4.5
2.2.4 CD3
2.2.5 OLIN
2.2.6组合分类器方法
2.3模糊决策树相关研究
2.3.1决策树算法
2.3.2模糊决策树预备知识
2.3.3模糊决策树分类器的优缺点
2.3.4模糊决策树的若干关键技术
2.4 小结
第三章 基于排序二叉树的连续属性处理算法VFDTb
3.1引言
3.2相关知识
3.2.1可伸缩学习算法框架
3.2.2属性选择测度
3.2.3连续属性处理
3.2.4划分节点计算
3.2.5 VFDT分类算法
3.2.6排序二叉树
3.3技术细节
3.3.1 VFDTb框架
3.3.2新样本到达时BST结构的更新
3.3.3连续属性最佳划分节点的选取
3.3.4 VFDTb离散属性的处理
3.4实验验证与比较
3.5小结
第四章 一种基于线索化二叉排序树的决策树分类新算法
4.1引言
4.2相关工作
4.2.1线索化二叉排序树
4.2.2 VFDTc
4.2.3排序数组处理连续属性
4.3 VFDTt设计与技术细节
4.3.1线索化二叉排序树结构
4.3.2连续属性的样本动态插入过程
4.3.3连续属性的属性树线索化过程
4.3.4最佳划分节点的选取过程
4.4理论分析与实验验证
4.4.1执行时间比较
4.4.2分类错误率及决策树大小比较
4.5小结
第五章 一种高效的数据流挖掘增量模糊决策树算法
5.1引言
5.2相关知识
5.2.1模糊理论
5.2.2决策树构造中的连续属性处理
5.2.3传统决策树和模糊决策树
5.2.4基于连续属性平滑离散化的决策树生成过程
5.3 IFVFDT框架与技术细节
5.3.1 IFVFDT框架结构
5.3.2属性树结点数据结构
5.3.3新样本到达时的属性树更新过程
5.3.4新样本到达时的属性树线索化过程
5.3.5连续属性的最佳划分节点选取过程
5.3.6新样本分类过程
5.4实验结果
5.4.1执行时间比较
5.4.2分类错误率比较
5.4.3决策树大小比较
5.5小结
第六章 一种基于扩展哈希表的高效概念漂移处理算法
6.1引言
6.2相关知识
6.2.1概念漂移定义
6.2.2概念漂移的分类
6.2.3处理概念漂移的系统
6.2.4 CVFDT
6.3 HashCVFDT技术细节
6.3.1扩展哈希表结构
6.3.2样本进入训练窗体时的扩展哈希表插入过程
6.3.3样本流出训练窗体时的扩展哈希表删除过程
6.3.4最佳划分节点的选取过程
6.4实验结果
6.4.1算法对连续属性处理的有效性
6.4.2噪声数据对算法的影响
6.4.3连续属性数目对算法的影响
6.5小结
第七章 结束语
7.1工作总结
7.2工作展望
参考文献

相似论文

  1. 基于涌现视角的多Agent系统分析研究,172页,TP301.6 TP181
  2. 相似矩阵与谱聚类,62 页,TP301.6 TP311.13
  3. 改进的粒子群算法及其在控制器参数整定中的应用,54页,TP301.6
  4. 动态可重构片上系统的任务在线放置和调度算法研究,51页,TP301.6 TP311.52
  5. 关联规则算法的研究,61页,TP301.6
  6. 主题爬虫搜索Web页面策略的研究,62页,TP301.6 TP393.092
  7. 基于纹理的高质量矢量可视化研究,145页,TP301.6 TP391.41
  8. 基于智能优化算法的体绘制研究,133页,TP301.6 TP391.41
  9. 跨智能空间上下文共享研究,120页,TP301.5
  10. 基于多个通道的概率进程演算模型,68页,TP301
  11. 高可用双机容错系统软件健壮性测试,63页,TP302.8 TP311.52
  12. 商业自动化系统数据安全技术的研究,51页,TP309 F716
  13. CA认证中心密钥生成与私钥封装系统的设计与实现,79页,TP309.7
  14. 基于Linux的可穿戴计算机导航定位系统设计与实现,70页,TP302.1
  15. 同时多线程踪迹处理器后端实现与研究,47页,TP302.1
  16. 基于准则和策略的自治式多agent服务协同体系研究,134页,TP301
  17. 虚拟域可信链的设计与实现,69 页,TP309.1
  18. 可信计算平台中TOCTOU攻击的响应方法,67 页,TP309.1
  19. 高性能DSP指令控制部件优化设计研究,74页,TP302.2
  20. 用于灾难恢复的远程备份系统的研究,68页,TP309.3
中图分类: > TP301 > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法

© 2012 book.hzu.edu.cn