优秀研究生学位论文题录展示

基于Web文本挖掘的SVM网页文本分类研究

专 业: 企业管理信息经济
关键词: Web挖掘 文本挖掘 支持向量机 网页分类
分类号: TP393
形 态: 共 68 页 约 44,540 个字 约 2.131 M内容
阅 读: 全文阅读说明

内容摘要


随着Internet的迅速发展,尤其是WorldWideWeb的全球普及,Web上信息资源已涵盖了社会生活的各个方面,网络信息过载InformationOverload问题日益突出,这促使Web挖掘技术和Web信息检索技术迅速发展。

广泛使用的处理Web信息的手段是搜索引擎。

目前使用较多的是基于关键字的搜索引擎,在实际应用中存在诸如返回文档数目过大,主题相关性不高等问题,总体查全率和查准率差强人意。

对于搜索引擎存在的问题,人们想到了数据挖掘。

数据挖掘是从大量数据中提取或“挖掘”知识,将传统的数据挖掘技术与Web结合起来,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的信息。

Web挖掘成为数据挖掘一个重要的研究领域。

Web挖掘技术能够从Web上海量的数据中自动地,智能地抽取隐藏于这些数据中的知识,弥补了传统搜索引擎的不足并且有更广泛的应用。

处理海量数据的一个重要方法就是将它们分类。

网页自动分类是Web文本挖掘领域的一个很重要的研究方向。

通过自动分类不仅仅可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。

文本分类把自然语言的文本按其内容划分到一个或多个预先定义好的类别中,是一个非常重要的信息组织和管理手段。

支持向量机SVM是由Vapnik及其领导的AT&T实验室研究小组提出的一种新的很有发展前途的机器学习算法。

在模式识别、回归估计、概率密度函数估计等方面都有应用。

在模式识别方面,对于手写数字识别、语音识别、人脸图像识别、文本分类等问题,SVM算法在精度上已经超过传统的学习算法或与之不相上下。

SVM有许多突出的优点,使它适合Web文本信息处理。

SVM作为可以广泛应用在网上信息自动分类的方法日益受到研究者的重视。

该方法研究小样本情况下的机器学习规律,具有相对较高的性能指标。

因为SVM具有较强的理论依据和较好的泛化性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术的重大发展。

本文阐述了Web挖掘的有关理论,给出Web文本挖掘的一般处理过程,并设计了一个基于Web的文本挖掘系统,包括文档采集模块、特征提取模块和挖掘模块。

接着介绍统计学习理论,深入探讨了建立在该理论基础上的SVM算法。

最后将SVM算法应用到Web文本挖掘之中,对Web文本进行分类。

研究了一种用SVM进行主动学习的方法,该方法在保证分类性能的前提下,可有效的提高效率。

结果表明SVM算法在Web文本挖掘方面具有很好的应用前景..……

全文目录


文摘
英文文摘
第一章 绪论
1.1研究背景
1.2 Web挖掘的现状
1.2.1国外的研究现状
1.2.2国内的研究现状
1.3统计学习理论与支持向量机算法
注释:
第二章 Web文本挖掘的研究
2.1 Web挖掘的难点
2.2 Web挖掘的分类
2.3 Web文本挖掘
2.3.1 Web文本挖掘的相关术语
2.3.2 Web文本挖掘的具体过程
注释:
第三章 Web文本挖掘系统设计
3.1文档采集模块
3.1.1 Web结构的组成部分
3.1.2统一资源定位器
3.1.3 HTTP协议
3.1.4 HTTP协议的运作方式
3.1.5模块设计
3.2特征提取模块
3.2.1特征提取
3.2.2综合网页信息提取
3.3挖掘模块
注释:
第四章 统计学习理论概述
4.1机器学习的基本问题
4.1.1机器学习问题的表示
4.1.2经验风险最小化
4.1.3复杂性与推广能力
4.2统计学习理论
4.2.1学习一致性的条件
4.2.2推广性的界与VC维
4.2.3结构风险最小化
注释:
第五章 支持向量机
5.1支持向量机的发展历史
5.2支持向量机的基本方法
5.2.1最优分类平面
5.2.2线性情况
5.2.3非线性情况
5.3支持向量机的研究
5.3.1 SVM训练算法
5.3.2 SVM分类算法
5.3.3多类SVM算法
5.3.4核函数及选择
5.4多分类支持向量机
5.4.1单分类器融合成多分类器
5.4.2层次分类
注释:
第六章 SVM在Web文本挖掘中的应用
6.1 SVM用于Web挖掘的原因
6.1.1 SVM的一些优点
6.1.2过学习问题
6.2 SVM实现主动学习
6.3实验结果
6.4总结
注释:
参考文献

相似论文

  1. 虚拟组织上的有限状态Mobile Agent系统的建模与性能评估,58页,TP39
  2. 基于JXTA的局域网文件共享系统研究,76页,TP39
  3. 将PDF文本文件导入SQL数据库,46页,TP39
  4. CBIR中图像匹配的研究,53页,TP39
  5. 基于WindowsDNA网上购物系统的研究与开发,69页,TP39
  6. 基于构件的动态工作流建模方法研究,61页,TP39
  7. 基于Intranet的OAS和Web报表系统,62页,TP39
  8. 基于网格技术的监控模型研究,63页,TP39
  9. 无线接入技术应用研究,61页,TP39
  10. 任意背景下印章识别技术研究,62页,TP39
  11. 长春市南湖信息管理数据库系统的开发与研究,57页,TP39
  12. 结构化CGM图形文件的解析与转换方法研究,55页,TP39
  13. 粗糙集理论及其在烟草品质判别中的应用研究,48页,TP39
  14. 基于英汉双语语料库的英汉双语Ontology的建立与管理,61页,TP39
  15. 计算网格作业调度算法的研究,53页,TP39
  16. 基于JINI服务的分布式体系应用探讨,54页,TP39
  17. 非标准无线射频技术在DeviceNet现场总线上的应用研究,54页,TP39
  18. 特定领域应用系统设计中构架复用的研究与实现,66页,TP39
  19. 基于OCR技术的名片识别系统的研究,60页,TP39
  20. 基于手绘草图的人机界面研究,79页,TP39
中图分类: > TP393 > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络

© 2012 book.hzu.edu.cn