基于Lucene的论文检索系统开题报告
2021-08-08 10:40:34
1. 研究目的与意义
在构建一个信息类web站点的时候,站点的全文搜索是必备的功能之一。
一般站点的信息内容都储存在各种数据库系统中,并使用数据库提供的检索和查询功能构建网站的搜索功能。
由于数据库索引不是为全文索引设计的,因此,使用like "%keyword%"时,数据库索引是不起作用的,在使用like查询时,搜索过程又变成类似于一页页翻书的遍历过程了,所以对于含有模糊查询的数据库服务来说,like对性能的危害是极大的。
2. 国内外研究现状分析
已经有很多java项目都使用了lucene作为其后台的全文索引引擎,比较著名的有:jive:web论坛系统;eyebrows:邮件列表html归档/浏览/查询系统,本文的主要参考文档thelucene search engine: powerful, flexible, and free作者就是eyebrows系统的主要开发者之一,而eyebrows已经成为目前apache项目的主要邮件列表归档系统。
cocoon:基于xml的web发布框架,全文检索部分使用了luceneeclipse:基于java的开放开发平台,帮助部分的全文索引使用了lucene。
在国内lucene的应用相对不成熟,很多研究知识处在理论研究阶段,对于企业级的应用就更少。
3. 研究的基本内容与计划
研究内容网页爬虫模块架构分析网页分析与提取模块索引建立模块web搜索模块研究计划1-2周 web爬虫的配置和扩展3-4周 网页的分析与数据提取5-9周 web系统模块和搜索模块设计10-14周 撰写论文初稿、修改完成论文、准备答辩
4. 研究创新点
纯Java实现高性能、可扩展
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。