`
yuaqian2003
  • 浏览: 13298 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

如何提高lucene索引的速度

 
阅读更多
1·关闭复合文件格式

       调用setUseCompoundFile(false)可以关闭复合文件选项。生成复合文件将消耗更多的时间

2·优化索引其实就是将多个索引文件合并成单个文件的过程,为了减少索引文件的数量级,能在搜索时减少读取索引文件的时间进行的操作。

3·优化索引的最佳时机是在索引过程结束后,当确认在此一段时间不会对索引文件进行更改的时候,在索引过程中优化索引只会是优化操作消耗更过的时间

4·重用Document和Field实例

       在Lucene2.3中,新增了一个方法setValue的方法,可以运行你改变字段的值。这样的好处是你可以在整个索引的过程中复用一个Field实例,这将极大的减少GC的负担。

5·设置autoCommit为false

       在Lucene2.3中对存储的字段和Term向量的文档进行了大量的优化,以节省索引合并的时间,可以单一的把IndexWriter实例的autoCommit设置为false,但是这样做会带来一个负面的影响:导致searcher在IndexWriter关闭之前不会看到任何索引的更新

6·在你真的需要之前不要随意的优化optimize索引(只有在需要更快的搜索速度的时候)

7·使用一个更快的分析器

8·关闭所有你实际上没有使用的功能

       如果你存储了字段,但是在查询时根本没有用到它们,那么别存储它们。同样的Term向量也是如此。如果你索引很多的字段,关闭这些字段不必要的特性将对你索引速度提升很多。

9·加大mergeFactor合并因子,但不是越大就越好

       大的合并因子将延迟segment的合并时间,这样做可以提高索引的速度,合并因子是索引很耗时的一个部分,但是这样做:降低了你的搜索速度。所以说两者是很矛盾的。

10·如果要索引很小的文本字段,如果没有特别的需要,建议将这些小文本的字段合并为一个大的Contents字段。然后再索引。
分享到:
评论

相关推荐

    基于Lucene索引的数据库全文检索 (2014年)

    针对传统数据库检索中检索速度较慢、检索结果不完整、检索结果排列无序等问题,基于全文检索工具Lucene索引的结构,设计一种基于 Lucene 的数据库索引结构,并提出记录倒排索引链表的概念,使网站不用再按照传统顺序查找...

    java(结合lucene)版的公交搜索系统的实现.rar

    Lucene索引:利用Lucene技术建立公交线路和站点信息的全文索引,实现快速的路线搜索和匹配功能,提高系统查询效率。 多线程优化:采用多线程技术处理用户请求和数据更新,提高系统的并发处理能力和响应速度。 ...

    Lucene 在知识库全文检索模块中所起的作用

    Lucene目前是应用最为广泛的全文检索架构,支持对TXT(HTML),PDF,WORD,JDBC等多种文本来源的全文索引创建及全文...由于CIS系统中的信息存放方式主要有以上五种方式,所以可以通过Lucene大大提高CIS系统的信息定位速度。

    C# 盘古分词

    1、 修改字典格式,提高字典加载速度 2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来 3、 增加词频判断功能,在无法取舍时根据词频取舍 4、 增加优先优先词频选项,通过这个选项动态决定...

    全文检索技术(一):Lucene入门

    一、全文检索的简介 ... 索引:一个为了提高查询速度,创建某种数据结构的集合。 1.3、全文检索 先创建索引然后查询索引的过程叫做全文索引。 索引一次创建可以多次使用,表现为每次查询速度很快。 2

    淘特站内搜索引擎(C#版) v3.3

    淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行...3、优化中文分词算法,提高大数量下文章索引及搜索速度。4、新增索引视频教程供使用者学习使用。

    ASP.NET基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+thesis).zip

    这将减少对数据库和服务器的访问次数,提高应用程序的响应速度和吞吐量。 异步编程:我们将使用ASP.NET提供的异步编程模型来处理并发请求和长时间运行的任务。这将提高应用程序的并发能力和响应性能,确保用户在高...

    针对电子医疗服务的在线和离线集群的有效混合负载调度

    为了提高执行效率和搜索精度,该算法对Lucene索引的压缩方法进行了搜索,然后对该索引进行了过滤。 在Storm平台上进行了仿真,以评估所提出方案的性能。 仿真结果表明,该方案可以使响应速度提高67.79%,准确率...

    基于合并因子的多种格式文件索引技术 (2012年)

    为了改进传统的文本检索技术存在检索文件格式种类单一,索引大数据量文件速度慢,甚至造成内存溢出等...实验分析表明,本系统有效地实现了多种格式文件检索功能,通过合并因子的设定有效提高了索引速度,系统可靠性高.

    基于Lucene的房产信息垂直搜索引擎的研究 (2011年)

    目的针对目前国内房产信息资源比较分散特点,研究房产信息垂直搜索引擎的建立 模式与实现技术。...相比其他搜索引擎在 搜索结果方面精度提高一倍,在运作成本方面仅为其他搜索引擎运作成本的1/2,搜索速度方 面相比

    ShuzhenAnalyzer-1.1.3

    2、在1中的前提下,索引创建及搜索速度受字典条目数量影响小到可以忽略不计 3、可以很方便对字典系统进行管理,管理功能如下: 3.1、往字典系统中增加单个条目 3.2、往字典系统中增加多个条目 3.3、利用txt文件往...

    延云YDB安装与使用说明书v1.0.2_

    1. 索引大幅度的加快数据的检索速度。 2. 索引可以显著减少查询中分组、统计和排序的时间。 3. 索引大幅度的提高系统的性能和响应时间,从而节约资源。 正因为大索引技术可以显著的降低大数据的处理成本,显著提高...

    延云YDB-运行程序v1.0.2_运行程序17

    1. 索引大幅度的加快数据的检索速度。 2. 索引可以显著减少查询中分组、统计和排序的时间。 3. 索引大幅度的提高系统的性能和响应时间,从而节约资源。 正因为大索引技术可以显著的降低大数据的处理成本,显著提高...

    全文检索技术研究与应用论文

    全文检索是现代信息检索技术的一个非常重要的分支...本文的重点放在了全文检索技术的应用上,对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、加快检速度、不断适应网络信息发展等方面做了重点研究。

    SpaceBuilder v1.1 Build 080718 安装版.zip

    全文检索:以Lucene为核心实现全文检索功能,索引库实现自动更新,并提供企业级的全文检索性能; 扩展机制:优秀的皮肤实现机制,使客户可以方便的对现有皮肤进行修改或开发新的皮肤;内容的提取全部采用服务器...

    Solr全攻略

    为了提高查询速度和处理更多的文档,Solr可以通过索引分片来实现分布式查询。为了提高吞吐量和容错能力,可以为每个索引分片增加副本,同时,把所有的索引复制到其他的服务器搭建成一个服务器集群,提高吞吐量。可通

    基于中文的Shuzhen分词器1.1.4提供下载

    字典条目支持导入到内存中,也就是在原有JDBM字典系统的基础上增加内存字典系统,且能方便自定义导入多少条目到内存中,能自定义使用内存还是JDBM字典系统还是两者结合起来使用,从而提高了索引创建速度;...

    SpaceBuilder v1.1源代码

    全文检索:以Lucene为核心实现全文检索功能,索引库实现自动更新,并提供企业级的全文检索性能; 扩展机制:优秀的皮肤实现机制,使客户可以方便的对现有皮肤进行修改或开发新的皮肤;内容的提取全部采用...

    淘特站内搜索引擎(C#版) 3.3

    淘特站内搜索引擎(C#版)基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。...3、优化中文分词算法,提高大数量下文章索引及搜索速度。 4、新增索引视频教程供使用者学习使用。

    主题搜索引擎的探究

    搜索引擎是本上世纪90年代兴起... 在Lucene API的基础上开发面向主题的搜索引擎[1]是一种有效、低成本的选择,因为Lucene全文数据库采用倒排文件索引技术[2],所以查询速度优于关系型数据库,而且可以。基于Lucene的优

Global site tag (gtag.js) - Google Analytics