本类下载TOP10
主题蜘蛛的研究与实现
全文下载
Word文件格式下载
5 文钱
文钱不够?
摘 要 因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。 Web 主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的 Web 页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于关键字技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力[2]。 关键词:定题搜索;主题爬行;搜索引擎;爬行算法;相关度分析 目 录 1.绪论 5 1.1课题背景 5 1.2本文研究内容 5 2.搜索引擎的结构 6 2.1系统概述 6 2.2搜索引擎的构成 6 2.2.1网络机器人 6 2.2.2索引与搜索 6 2.2.3 Web服务器 7 2.3搜索引擎的主要指标及分析 7 3.主题蜘蛛的实现 8 3.1什么是主题蜘蛛 8 3.2主题蜘蛛的结构分析 8 3.2.1如何解析HTML 8 3.2.2 主题蜘蛛的程序结构 9 3.2.3如何构造主题蜘蛛程序 10 3.2.4如何提高程序性能 13 3.2.5主题蜘蛛的代码分析 14 3.3小节 16 4. 确定于主题相关的URL 17 4.1 Lucene全文检索 17 4.2 Lucene的原理分析 17 4.2.1全文检索的实现机制 17 4.2.2 Lucene的索引效率 17 4.3 Lucene与Spider的结合来达到对主题相关URL的提取 18 4.4进行相关主题URL的提取 21 4.5小节 22 5. 输出页面设计 23 5.1基于Tomcat的Web服务器 23 5.2用户接口设计 23 5.3.1客户端设计 23 5.3.2服务端设计 24 5.3在Tomcat上部署项目 26 5.4小节 26