網站首頁 編程語言 正文
merge是lucene的底層機制,merge過程會將index中的segment進行合并,生成更大的segment,提高搜索效率。
segment是lucene索引的一種存儲結構,每個segment都是一部分數據的完整索引,它是lucene每次flush或merge時候形成。
每次flush就是將內存中的索引寫出一個獨立segment的過程。所以隨著數據的不斷增加,會形成越來越多的segment。
因為segment是不可變的,刪除操作不會改變segment內部數據,只是會在另外的地方記錄某些數據刪除,這樣可能會導致segment中存在大量無用數據。
搜索時,每個segment都需要一個reader來讀取里面的數據,大量的segment會嚴重影響搜索效率。
而merge過程,會將小的segment寫到一起形成一個大的segment,減少其數量。同時重寫過程會拋棄那些已經刪除的數據。因此segment的merge是有利于查詢效率的。
elasticsearch的merge其實就是lucene的merge機制。merge過程是lucene有一個后臺線程,它會根據merge策略來決定是否進行merge,一旦merge的條件滿足,就會啟動后臺merge。
merge策略分為兩種,這也是大多數大數據框架所采用的,segment的大小和segment中doc的數量。
以這兩個標準為基礎實現了三種merge策略:TieredMergePolicy、LogDocMergePolicy 及LogByteSizeMergePolicy。
elasticsearch這一部分就是對這三種合并策略的封裝,并提供了對于的配置。
它的實現方式如下所示:
底層mergeprovider實現了對三種合并策略的初始化和配置,并通過getMergePolicy()方法對外提供。
這三種合并策略中LogDocMergePolicy是根據doc數量進行合并,其它兩種都是根據segment的大小,只是TieredMergePolicy合并過程是分層進行,它會把小于某一值的所有segment合并成一個大的segment,然后再一次進行。
以上是合并策略,除了合并策略還有一個要說的就是合并線程。前面說過,merge是通過獨立線程完成的,lucene對于線程策略也有兩種,一種是順序,另外一種就是并發。
順序合并策略會阻止索引的進行,因此多數情況先不會使用,而并發合并則是和index過程同時進行,這樣不會影響索引和搜索。
elasticsearch同樣通過provider的形式提供這兩種合并線程配置。
merge能夠通過減少segment數量來提高搜索速度。但是merge的過程會對索引吞吐量及搜索速度有一定的影響,因此需要配置適當的合并策略參數。對于資源不足的環境,最好禁止自動merge,選擇空閑時段手動進行merge。
原文鏈接:https://www.cnblogs.com/zziawanblog/p/6876093.html
相關推薦
- 2022-11-02 python?pip特殊用法之pip?install?-v?-e?.命令詳解_python
- 2022-04-03 詳解iOS?實現一對多代理方案_IOS
- 2022-04-25 Golang將Map的鍵值對調的實現示例_Golang
- 2022-02-13 淺析ARMv8匯編指令adrp和adr_匯編語言
- 2022-03-22 C++using聲明和using編譯指令_C 語言
- 2022-07-19 macOS Docker 內存 CPU 占用過高,監控到 com.Docker.hyperkit 進
- 2022-07-03 對比分析BN和dropout在預測和訓練時區別_python
- 2022-02-20 Ubuntu18.04更改apt源為阿里云源的詳細過程_Linux
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支