本类下载TOP10
数据清洗算法分析
全文下载
Word文件格式下载
10 文钱
文钱不够?
随着计算机技术的应用,人们在日常事务中积累了大量的数据。为了更有效的利用这些数据,越来越多的企业开始利用数据仓库技术对数据进行分析,数据仓库中一项很重要的技术是数据集成,即将操作型数据从不同信息源抽取到数据仓库中来,由于不同源间的数据库存在着语义和模式的差异,这使得数据集成成为难度很大的工作;此外,在数据集成过程中存在着大量的信息缺失、信息重复等问题。由此,需要在数据集成中加入数据清洗过程,来消除数据的异构性及其他诸多问题。 目录 1 摘要 3 ABSTRACT 4 第一章 绪论 5 1.1 课题背景 5 1.2选题的目的、意义 5 1.3 国内外发展概况 6 1.4设计思想及内容 6 第二章 数据仓库的相关理论准备 7 2.1数据仓库的产生 7 2.2数据仓库的基本概念 7 2.2.1数据仓库的定义 7 2.2.2数据仓库的基本特征 7 2.3数据仓库系统的组成 9 2.4数据仓库的数据组织 10 2.4.1数据仓库的数据组织结构 10 2.4.2数据仓库的数据组织形式 10 2.5数据仓库工具 11 2.5.1.数据仓库工具的分类 12 2.5.2OLAP分析工具 12 2.5.3数据挖掘工具 15 第三章 数据质量的相关理论准备 17 3.1数据质量定义 17 3.2高质量数据的特征 17 3.3 数据质量问题分类 17 3.3.1单数据源问题 18 3.3.2多数据源问题 20 第四章 数据清洗相关技术及解决方案 21 4.1 数据清洗步骤 21 4.2 数据清洗的相关技术概述 21 4.2.1空缺值处理 21 4.2.2异常值检测 22 4.2.3重复元组检测 22 4.3重复纪录相关算法及其它 23 4.3.1纪录的初步聚类算 23 4.3.2纪录匹配的算法 23 4.3.3相似重复纪录的合并算法 23 第五章 数据清洗程序及相关数据分析 24 5.1程序简要介绍 24 5.1.1程序开发工具 24 5.1.2程序运行主界面 24 5.1.3菜单介绍 24 5.2重复纪录处理与清洗说明 25 5.3单表关联检测和多表关联检测阐述 32 5.4应用程序复杂度分析及其它 34 5.5应用程序测试及结果分析 34 结束语 36 参考文献 37 致谢 38 目录 目录 1 摘要 3 ABSTRACT 4 第一章 绪论 5 1.1 课题背景 5 1.2选题的目的、意义 5 1.3 国内外发展概况 6 1.4设计思想及内容 6 第二章 数据仓库的相关理论准备 7 2.1数据仓库的产生 7 2.2数据仓库的基本概念 7 2.2.1数据仓库的定义 7 2.2.2数据仓库的基本特征 7 2.3数据仓库系统的组成 9 2.4数据仓库的数据组织 10 2.4.1数据仓库的数据组织结构 10 2.4.2数据仓库的数据组织形式 10 2.5数据仓库工具 11 2.5.1.数据仓库工具的分类 12 2.5.2OLAP分析工具 12 2.5.3数据挖掘工具 15 第三章 数据质量的相关理论准备 17 3.1数据质量定义 17 3.2高质量数据的特征 17 3.3 数据质量问题分类 17 3.3.1单数据源问题 18 3.3.2多数据源问题 20 第四章 数据清洗相关技术及解决方案 21 4.1 数据清洗步骤 21 4.2 数据清洗的相关技术概述 21 4.2.1空缺值处理 21 4.2.2异常值检测 22 4.2.3重复元组检测 22 4.3重复纪录相关算法及其它 23 4.3.1纪录的初步聚类算 23 4.3.2纪录匹配的算法 23 4.3.3相似重复纪录的合并算法 23 第五章 数据清洗程序及相关数据分析 24 5.1程序简要介绍 24 5.1.1程序开发工具 24 5.1.2程序运行主界面 24 5.1.3菜单介绍 24 5.2重复纪录处理与清洗说明 25 5.3单表关联检测和多表关联检测阐述 32 5.4应用程序复杂度分析及其它 34 5.5应用程序测试及结果分析 34 参考文献 37