Tag:lucene
All the articles with the tag "lucene".
lucene 分词
Posted on:July 4, 2023 at 09:54 PM## 背景 了解分词过程 ## 概述 lucene的查询过程: > (String query , String field ) -> Query 整个过程是将字符串`"how old
lucene 搜索过程
Posted on:June 19, 2023 at 12:58 PM## 背景 了解lucene的搜索过程: - 分词 - 算每个分词的权重,排序取topk ## 代码堆栈 - 写入过程: ``` add:473, FSTCompiler (org.apache
WFST 和lucene 和fst
Posted on:June 5, 2023 at 07:06 PM## 在WFST(Weighted Finite State Transducer,加权有限状态转换器)中,"All Pairs Shortest Path"(APSP)算法用于计算任意两个状态之间
fst 结构
Posted on:May 25, 2023 at 08:05 PM## 背景 了解lucene 的fst结构 ## 核心函数 freeezeTail -> compileNode ``` private void freezeTail(int p
priority queue
Posted on:September 5, 2022 at 06:16 AM# 背景 lucene 搜索的结果搜索经过soccer算出分数之后,还需要topK取前几个数据,所以需要使用到topk的算法。 一般用优先队列实现。 ## 介绍 下面都是描述最大优先队列 优
lucene tim格式
Posted on:August 19, 2022 at 01:50 PM## 背景 `tim`文件是`lucene` 存储词相关统计信息的文件. 与它相关的还有`tip`文件 ## 格式和例子 ### 文件格式: 可以从最下面的相关阅读可以获取对应的文档
lucene 10源码分析
Posted on:June 27, 2022 at 10:50 PM## 背景 我家里的电脑的lucene是10版本的 # 创建索引和保存 ``` ### 断点 java -agentlib:jdwp=transport=dt_socket,server=y,ad
lucene 编译安装
Posted on:June 19, 2022 at 08:49 PM# 背景 需要编译和了解lucene代码 # 编译 因为lucene锁死了版本,所以要切换成jdk17,我本地是jdk18 ## clone代码 ``` ## clone 代码 git
lucene源码分析
Posted on:October 21, 2021 at 01:01 PMlucene 分为两部分: - 写入 写入则是写入文件系统 - 查询 则是通过了 分词、排序、topk提取等过程,获取对应的docid,再通过docid 回查对应的内容 ## Vi
bm25 and search
Posted on:July 7, 2020 at 01:25 PM## 背景 搜索往往需要排序,对不同文档做排序,有很多很多模型。其中一个模型叫`BM25`。 在lucene里面,实现类是 `lucene/core/src/java/org/apache/lu
fst
Posted on:July 7, 2020 at 01:25 PM## 背景 FST 即`finite state machine`,lucene很多内容都是用这个格式压缩和存储的. ## fst 例子 介绍`FST`之前,先看看`Hashmap`. `H
倒排索引
Posted on:October 2, 2019 at 09:47 AM#### es编译 ``` gradle idea ``` 跑了很久 >BUILD SUCCESSFUL in 49m 34s 334 actionable tasks: 334 executed