本类下载TOP10
数据清洗算法的研究与应用
全文下载
Word文件格式下载
10 文钱
文钱不够?
摘要 随着信自、技术的飞速发展,组织的管理人员进行决策分析时对数据的依赖性越 来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境一数据 仓库。但是在构建数据仓库的过程中,从异构的数据源中导入的数据中存在各种质 量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,影响信息 服务的质量。所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓 库和数据挖掘领域,乃至网络数据处理的一个重要课题。 本文首先对数据清洗的知识进行了全面和详细的描述,介绍了数据清洗的概念、 意义和国内外研究与应用的现状。对数据清洗技术的原理、方法、评价标准以及基 本流程进行了分析和总结。其中重点对属性清洗及重复记录清洗所用到的技术和各 种算法进行了深入的研究,并提出了相应的改进算法。 第一章概述................................................................ 1 1. 1问题的提出.....................……‘....••••••••••••••••••……1 1. 2数据质量..........................................••....••••……2 1.2.1数据质量的描述... ...……,...........................……2 1.2.2数据质量问题的分类...................................……2 1. 3数据清洗定义与简介.,........................................……3 1.3.1数据仓库应用中的数据清洗定义.......................……3 1. 3. 2 KDD应用中的数据清洗定义.,..............……,..…,……3 1.3.3数据/信息质量管理应用中的数据清洗定义...........……,二3 1. 4数据清洗技术研究现状.......................................……4 1. 4. 1国外研究现状.........................................……。4 1.4.2国内研究现状............................................... 6 1. 5本文的研究内容与章节安排...................................……6 第二章数据清洗知识...................................................... 8 2. 1数据清洗的原理和方法二,.....……,................……,.……8 2.1.1数据清洗的原理..............................……。...……8 2. 1. 2数据清洗的方法......……‘..……‘..................……8 2. 2数据清洗的基本流程.........................................……10 2. 3数据清洗的评价标准,................................... .....……12 2. 3. 1成本效益........................................…………12 2. 3. 2数据质量............................……。..……。••……13 2. 3. 3数据集成二,..........................................•……13 第三章属性清洗............................................:.............. 14 3. 1属性清洗的对象..……,....................................……14 3. 2属性清洗的基本方法.........................................……14 3. 2. 1缺失值的清洗方法.....................................……14 3. 2. 2错误值的检测及清洗方法..............……,.........……I5 3. 2. 3不一致数据的清洗方法................................……15 3. 3自动检测属性错误的方法....................................……15 3. 3. 1统计分析的方法.................................. .....……16 3. 3. 2聚类的方法...……,..................……,........……16 3. 3. 3基于模式的方法.,.。。。。,,。,。。.。.。二。。…。,,.,.。.。。二,。.。.。。。,17 3. 3. 4关联规则的方法.……。.......……。.................……17 3. 4实验结果................................ ........……,....……18 3. 4. 1实验数据集介绍、......................................……18 3. 4. 2实验结果分析二,…,,................……,..........……19 第四章重复记录清洗...................................................... 20 4. 1重复记录清洗简介......... ..................................……20 4.1.1重复记录的定义。......................................……20 4. 1. 2重复记录清洗的意义..................................……20 4.1.3重复记录清洗的基本流程.,...........................……21 4. 2预处理..................................……,...•••••••••……22 4. 2. 1属性选择...........................................……22 4.2.2初步聚类..…,...................... ...............……22 4.2.3分配属性的权重....……,............................……24 4. 3重复记录检测..............................................……24 4. 3. 1字段匹配问题.............................……,,.……24 4.3.1.1基本的字段匹配算法...... ......................……25 4.3.1.2递归的字段匹配算法..…,.....................……25 4.3.1.3 Smith-Waterman算法.........……,.....……。…。.26 4. 3. 1. 4改进的Smith-Waterman算法((R-S-W算法).…,……27 4.3.1.5基于编辑距离的字段匹配算法及缩写发现算法...……27 4. 3. 2记录匹配问题.................................……。.……32 4. 3. 2. 1记录相似度和有效权值......……,...……,.……32 4.3.2.2长度过滤优化算法.…,.,。……。.......……,..…. . }33 4. 4数据库级重复记录聚类......................................……36 4. 4. 1基本近邻排序算法SNM ........... ...............……,.…36 4.4.2多趟近邻排序算法MPN ................................……37 4. 4. 3优先权队列算法.......................................……38 4. 4. 4改进的SNM算法.......................................……39 4. 4. 5衡量重复记录清洗算法效率的度量标准。……,........……40 4.4.6实验结果.............................................……41 4. 5冲突处理.................……,……、二,……。..…,....•……41 第五章应用工具的设计.................................................. 43 5. 1应用背景............... ..........................……。...……。43 5. 2源数据中存在的问题............................……,...……,43 5. 3工具的框架结构和操作流程..……,.......................……,44 5. 3. 1工具的框架结构.…,..................................……44 5. 3. 2工具的操作流程.......................................……45 5. 4工具的优缺点二。二,.........................................……45 第六章总结与展望........................................................ 46 6. 1本文所做工作的总结................……,...……。.......……46 6. 2未来研究方向的展望..........................……。…。..…。…46 参考文献…。........................................................……48