本类下载TOP10
基于数据挖掘的中文垃圾邮件过滤方法研究与实现
全文下载
Word文件格式下载
10 文钱
文钱不够?
1.本章内容 本文研究的主要内容基于服务器端的过滤更能解决垃圾邮件泛滥的问题,能及时阻拦垃圾邮件,避免造成资源的浪费甚至其它很大的危害,对垃圾邮件的过滤越早实施,就越能将损失减少到最低。主要运用基于数据挖掘的改进的贝叶斯邮件模型过滤更多的中文垃圾邮件,提高过滤精度。本文研究的主要内容包括:对当前流行的反垃圾邮件技术的概况、基本原理及各自优缺点做研究比较;利用基于数据挖掘的邮件过滤方法 — 贝叶斯算法,建立改进的贝叶斯邮件过滤模型;分析向量空间及特征项的选择与抽取的原理和方法;提出应用基于二元语法短语标记的中文分词算法;分析改进特征向量空间降维问题处理,减小特征项的数量;利用实验对传统朴素贝叶斯算法和改进的贝叶斯邮件过滤算法进行了分析与比较。 2。本文的主要组织本文的内容安排如下 第一章,阐述了本论文的研究背景及选题意义,并介绍了垃圾邮件历史、现状与发展趋势;反垃圾邮件国内外相关技术的现状和发展。第二章,邮件过滤模型初始化处理,包括自动分词方法、自动文本分类技术、文本分类的特征提取。第三章,本章具体介绍贝叶斯分类器、朴素贝叶斯分类模型、朴素贝叶斯邮件过滤算法及改进后的邮件过滤算法第四章,垃圾邮件过滤系统设计和实现,本系统利用改进后的贝叶斯模型对邮件头、邮件正文分别进行过滤。最后是结论与展望,对本文研究的技术进行展望和总结。目录摘要 ................................................................................................ Abstract........................................................................................... 目录 ................................................................................................................................. Contents ........................................................................................................................... 第一章绪论 .................................................................................................................... 1.1 研究背景及选题意义 ............................................. 1.2 垃圾邮件历史、现状与发展趋势 ................................... 1.2.1 垃圾邮件的历史 ............................................ 1.2.2 垃圾邮件的现状与发展趋势 .................................. 1.3 电子邮件工作原理 ............................................... 1.3.1 电子邮件的工作原理 ........................................ 1.3.2 电子邮件结构分析 .......................................... 1.4 反垃圾邮件技术国内外研究现状与发展趋势 ......................... 1.5 本文研究的主要内容 ............................................ 1.6 本文的主要组织 ................................................ 第二章邮件过滤模型初始化处理 ................................................ 2.1 自动文本分词技术 .............................. 2.2 自动文本分类技术 .............................................. 2.3 文本分类中的特征提取 .......................................... 第三章贝叶斯分类过滤器 ........................................................... 3.1 几个概念 ...................................... 3.2 贝叶斯分类器 .................................. 3.3 朴素贝叶斯模型 ................................ 3.4 改进后的贝叶斯邮件过滤算法 .................... 第四章垃圾邮件过滤系统设计和实现 ........................................ 4.1 垃圾邮件系统总体设计 .......................... 4.2 模块设计和实现 ................................ 4.2.1 贝叶斯模型初始化模块 ..................................... 4.2.2 贝叶斯模型初始化模块实现 ................................. 35 4.2.3 中文文本自动分词的实现 ................................... 36 4.2.4 特征项的抽取 ............................................. 43 4.2.5 数据模块 ................................................. 46 4.2.6 贝叶斯模型过滤模块应用 ................................... 47 4.2.6.1 邮件过滤应用过程 .................................... 47 4.2.6.2 实验结果比较 ........................................ 48 结束语 ........................................................................................................................... 51 参考文献 ....................................................................................................................... 53 攻读学位期间发表的论文 ............................................................................................ 58 致谢 ............................................................................................................................... 61 附录 1 ............................................................................................................................ 63