Lucene4.6 把时间信息写入倒排索引的Offset偏移量中，并实现按时间位置查询

最新推荐文章于 2026-06-24 09:13:30 发布

转载最新推荐文章于 2026-06-24 09:13:30 发布 · 198 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：http://www.cnblogs.com/jetHu/p/7270835.html

收录于

当前文章被以下社区和专栏收录：

本文介绍了一种对Lucene4.x源码的扩展方法，通过新增TimeTokenizer分词器和Filter，实现在倒排索引中精确记录时间位置信息，以便于高效检索特定时间范围内的文档。

有个新的技术需求，需要对Lucene4.x的源码进行扩展，把如下的有时间位置的文本写入倒排索引，为此，我扩展了一个TimeTokenizer分词器，在这个分词器里将时间信息写入

偏移量Offset中。扩展了一个Filter,最后查询时通过filter把时间信息传进去过滤想要的时间范围之内的结果。

　　Lucene倒排索引中分好的词有两个偏移量一个是按字符的偏移量（BeginOffset和EndOffset）另一个是以分词（Term）为一个单元的position，每增加一个词position加1，如果这个词有两个字符则EndOffset加2， BeginOffset等于上一次的EndOffset。

源码地址：https://github.com/Jethu1/TimeAnalyzer

转载于:https://www.cnblogs.com/jetHu/p/7270835.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Zoe_Liu2016

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Lucene】TokenStream-语汇单元的项、偏移量、类型和位置增量

Mr_Tank_

09-05

406

代码： package com.tan.code; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene...

谈谈lucene的词向量存储结构

weixin_33921089的博客

12-30

518

2019独角兽企业重金招聘Python工程师标准>>> ...

参与评论您还未登录，请先登录后发表或查看评论

Lucene初探之数据格式详情(三)

奋斗的小geek

02-19

688

Lucene初探之数据格式详情(三)今天，我们来了解一下Lucene的域的元数据信息—>.fnm。一个段包含多个域，每个域都存储一下元数据。fnm文件的详细数据格式大致如下：如同上面对段的信息的介绍一般，我们来一个个地看一下域中各个不同存储区域的具体含义和作用。 FNMVersion：代表fnm文件版本号；比如Lucene2.9版本对应的FNMVerion值为-2； FieldsCoun

Lucene索引文件

nepshi的专栏

11-14

161

如何产生一个segment？当IndexWriter执行commit时，会产生一个segment。下述文件每个segment一个： .fnm：存储一个segment中Field个数，Field名称，Field的属性（是否索引、存储etc） .fdt：存储一个segment中，每个document中所有Field的域号、Field属性（是否分词、是否二进制、是否压缩etc），Fi...

Lucene学习总结之四：Lucene索引过程分析(3)

diebiaosang4496的博客

02-02

223

5、DocumentsWriter对CharBlockPool，ByteBlockPool，IntBlockPool的缓存管理在索引的过程中，DocumentsWriter将词信息(term)存储在CharBlockPool中，将文档号(doc ID)，词频(freq)和位置(prox)信息存储在ByteBlockPool中。在ByteBlockPool中，缓存是分块(slice...

Lucene 4.X 倒排索引原理与实现: (1) 词典的设计

diebiaosang4496的博客

08-28

440

词典的格式设计词典中所保存的信息主要是三部分： Term字符串 Term的统计信息，比如文档频率(Document Frequency) 倒排表的位置信息其中Term字符串如何保存是一个很大的问题，根据上一章基本原理的表述中，我们知道，写入文件的Term是按照字典顺序排好序的，那么如何将这些排好序的Term保存起来呢？ 1. 顺序列表式一个直观的想法就是顺序列...

lucene正向索引（续）——域(Field)的元数据信息在.fnm里，在倒排表里，利用跳跃表，有利于大大提高搜索速度。...

weixin_34061555的博客

02-13

4.1.2. 域(Field)的元数据信息(.fnm) 一个段(Segment)包含多个域，每个域都有一些元数据信息，保存在.fnm文件中，.fnm文件的格式如下： FNMVersion 是fnm文件的版本号，对于Lucene 2.9为-2 FieldsCount 域的数目一个数组的域(Fields) FieldName：域名，如"title"，"modified"，"cont...

聊一聊elastic search

Jacy_Wang的博客

02-18

679

今天聊一聊elastic search 首先说说正排索引和倒排索引，在我理解，正排索引就是知道了序号，根据序号查找到对应的内容，而倒排索引，就是根据内容锁定好序号，正排索引与倒排索引相结合的使用场景是，根据用户给的内容，根据倒排索引锁定内容的序号信息，然后根据序号，给出完整的内容。下面是一个简单的正排索引与倒排索引的例子： es里的倒排索引：包括单词词典（Term Dictionary）和倒排列...

Golang基础面试题汇总

weixin_41760738的博客

11-26

5490

channel、goroutine、slice、map、反射、内存、GC、Musql、Redis、ELK、K8s、Http、Https

Delta Lake删除加速原理：Deletion Vectors机制详解

最新发布

weixin_34354173的博客

06-24

420

Delta Lake作为现代湖仓一体架构的核心存储格式，其删除操作长期面临性能瓶颈。传统方式依赖全量重写文件，I/O与计算开销巨大；而Deletion Vectors（删除向量）通过在Parquet文件footer中嵌入轻量级行号标记，实现逻辑删除的‘跳过式’执行，彻底规避读-过滤-写循环。该机制依托Delta Tables的事务日志与文件级统计信息，在Databricks运行时3.0+中深度集成，显著提升DELETE、MERGE及UPDATE等行级操作效率。适用于高频数据修正、错误数据下线、实时同步等典型

Lucene学习总结之三：综述Lucene的索引文件格式

lengyuhong的专栏

03-06

3417

原文：http://www.lucene.com.cn/about.htm#_Toc43005322在Lucene的web站点上，有关于Lucene的文件格式的规范，其规定了Lucene的文件格式采取的存储单位、组织结构、命名规范等等内容，但是它仅仅是一个规范说明，并没有从实现者角度来衡量这个规范的实现。因此，我们以下的内容，结合了我们自己的分析与文件格式的定义规范，以期望给出一个更加清晰的文件格式说明。具体的文档规范可以参考后面的文献2。首先在Lucene的文件格式中，以字节为基础，定义了如下的数

ES之倒排索引

weixin_42128977的博客

11-05

7701

我们对“cat”、 “deep”、 “do”、 “dog” 、“dogs”这5个单词进行插入构建FST（注：必须已排序）。文档中的每个字段，都有自己的倒排索引。，简单的了解了倒排索引的概念。这样当我们去搜索某个关键词时，为了进一步提升索引的效率，与其对应的文档列表建立。的前缀或者后缀构建了。

Lucene原理（一）：基本概念

桃花惜春风

09-15

4989

Apache Lucene是Apache的一个核心开源项目，是目前最好的搜索框架。扩展性强，支持全文检索，各种各样的数据结构，支持不同的查询需求。目前使用Apache Lucene最好的两款开源软件： Apache solr，Apache 旗下的开源搜索引擎，支持各种数据格式的检索（json、pdf、csv等），实时性较差 Elasticsearch，目前最火的开源搜索引擎，实时性...

倒排索引

wnn1029的博客

09-10

130

倒排索引倒排索引的核心组成正排索引 - 文档id到文档内容和单词的关联 倒排索引 - 单词到文档id的关系 倒排索引的核心组成 倒排索引包含两个部分单词词典:一般比较大，可以通过B+树或者哈希拉链法实现，以满足高性能的插入与查询倒排列表 倒排索引项文档id 词频 TF - 在文档出现的次数，用于相关性打分位置(position) - 在文档中分词的位置，用于语句搜索偏移(...

lucene-索引日期与索引数字和排序

深未来技术

12-25

1178

一、索引日期1、Field.Keyword(String,Date)方法和DateField类进行索引索引今天的日期可以这么做:Document doc=new Document（）；doc.add(Field.Keyword("indexDate",new Date()))；lucene内部使用了DateField类将日期转成字符串。2、可以先转换为YYYYMMDD格式的

lucene索引结构整理

u013277115的专栏

06-12

1392

一、基础信息索引结构：索引信息元数据：segment_N. 段信息元数据：.si 正排信息：.fnm .fdx .fdt 倒排信息：.tim .tip 与 .doc .pos .pay norm信息：.nvm .nvd doc_value信息：.dvm .dvd term_vector信息：.tvx .tvd 存储类型 Int8： Byte Int32：4 Byte 无符号int...

倒排索引总结

今天吃了吗的博客

06-22

998

目录 倒排索引简介 Elasticsearch 建立倒排索引 参考了 https://www.cnblogs.com/cjsblog/p/10327673.html 倒排索引简介 倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过key找value，反向索引则是通过value找key。先来回忆一下我们是怎么插入一条索引记录的： curl -X PUT "localhost:9200/user/_doc/1" -H 'Content-..

关于倒排索引表的总结

Rocky

12-18

1858

最近在研究elasticsearch的技术栈，发现ES底层是基于luence技术进行检索，检索的原理是倒排索引表。那么什么是倒排索引表呢？在知乎上看到一个讲解elasticsearch的倒排索引表的帖子。链接是：https://zhuanlan.zhihu.com/p/33671444 为什么说elasticsearch的倒排索引表的检索速度是比关系型数据库的索引查新更快呢？首先，关系型数...

Lucene3.0结果排序原理+操作+示例

weixin_33694172的博客

10-19

381

Lucene3.0之结果排序（原理篇）传统上，人们将信息检索系统返回结果的排序称为"相关排序" （relevance ranking），隐含其中各条目的顺序反映结果和查询的相关程度。 1、基本排序原理 ① 向量空间模型 Gerald Salton 等在 30 多年前提出的"向量空间模型" （Vector Space Model，VSM）[Salton and Lesk,19...