您的位置: 首页-> 文档分类-> 期刊论文-> 电子通讯 收藏此页到365Key

本类下载TOP10

4多媒体通信讲稿
4通信原理
4模糊控制系统近年来的研究与发展
4模糊控制在现场总线控制系统中的应用
4铁路运输信息化
4统计信号处理讲稿
4模糊聚类辨识算法
4面向21世纪的过程控制技术
4模糊逻辑系统的GA+BP混合学习算法
4智能交通系统中的应用信息系统

主题蜘蛛的研究与实现

文档类别: 电子通讯
文档大小: 365K
文档评级:
文档格式: Word文件,WPS格式文档
文档更新: 2008-6-19 6:56:05
页面刷新: 2008-11-1 10:08:46
下载次数: 7
其它信息:  
 
 

全文下载

Word文件格式下载

5 文钱


文钱不够?

   
文档介绍:  

摘 要
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。
Web 主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的 Web 页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于关键字技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力[2]。

关键词:定题搜索;主题爬行;搜索引擎;爬行算法;相关度分析
目 录
1.绪论 5
1.1课题背景 5
1.2本文研究内容 5
2.搜索引擎的结构 6
2.1系统概述 6
2.2搜索引擎的构成 6
2.2.1网络机器人 6
2.2.2索引与搜索 6
2.2.3 Web服务器 7
2.3搜索引擎的主要指标及分析 7
3.主题蜘蛛的实现 8
3.1什么是主题蜘蛛 8
3.2主题蜘蛛的结构分析 8
3.2.1如何解析HTML 8
3.2.2 主题蜘蛛的程序结构 9
3.2.3如何构造主题蜘蛛程序 10
3.2.4如何提高程序性能 13
3.2.5主题蜘蛛的代码分析 14
3.3小节 16
4. 确定于主题相关的URL 17
4.1 Lucene全文检索 17
4.2 Lucene的原理分析 17
4.2.1全文检索的实现机制 17
4.2.2 Lucene的索引效率 17
4.3 Lucene与Spider的结合来达到对主题相关URL的提取 18
4.4进行相关主题URL的提取 21
4.5小节 22
5. 输出页面设计 23
5.1基于Tomcat的Web服务器 23
5.2用户接口设计 23
5.3.1客户端设计 23
5.3.2服务端设计 24
5.3在Tomcat上部署项目 26
5.4小节 26

相关文档:
注意事项:
如果出现该页无法显示,请多试几次;如果总是不能下载,请点击报告错误,谢谢!
☉部分文档使用了最新版的[WinRAR]才能正常解压,该文档可在首页下载;如有其它问题,欢迎发信联系管理员
由于网站服务器承受能力有限,请其他网站不要直接链接我们提供的文档,谢谢!!
网赚365