網站首頁 編程語言 正文
本篇文章記錄最近一次生產服務器硬件升級之后引起集群不穩定的現象,希望可以幫到有其它人避免采坑。
一、問題描述
升級后出現的異常如下:
出現限流日志:stop throttling indexing: numMergesInFlight=8, maxNumMerges=9應用寫入集群的rt耗時變高,同時集群監控的indexing的時長也變高mlocked的內存調用一直在增長
二、升級過程升配前
ES version:6.2.4
配置:32C64G
環境:阿里云ecs自建
gc:cms
jvm:30GB
升配后
ES version:6.2.4
配置:64C128G
環境:阿里云ecs自建
gc:cms
jvm:30GB
三、處理步驟
升配之后第二天首先應用表現出異常,寫入ES的耗時變高了好十幾倍,從40ms上升到600ms;升配導致集群變慢還是頭一次遇到。通過對集群監控分析集群整體負載正常比升配之前有所下降,但是indexing的寫入耗時監控確實比升配之前增長了很多。在ES的輸出日志中出現了異常日志"stop throttling indexing: numMergesInFlight=8, maxNumMerges=9";
1.限流處理
當時懷疑應該是這個限流導致,ES的限流的主要目的是出于對集群的保護避免產生過多的段影響性能,說白了就是段的合并跟不上寫入的速度,所以先來解決這個限流的問題,
由于配置文件沒有配置最大線程數和最大的合并線程數,所以這兩個值是用的是默認值
Spinning media has a harder time with concurrent I/O, so we need to decrease the number of threads that can concurrently access the disk per index. This setting will allow max_thread_count + 2 threads to operate on the disk at one time, so a setting of 1 will allow three threads.
index.merge.scheduler.max_thread_count
The maximum number of threads on a single shard that may be merging at once. Defaults to Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2)) which works well for a good solid-state-disk (SSD). If your index is on spinning platter drives instead, decrease this to 1.
注意:在6.x版本之后已經取消了"indices.store.throttle.max_bytes_per_sec",所以現在只能通過調整max_thread_count,max_merge_count,默認max_thread_count最小是1最大是4,如果是機械盤推薦設1如果是ssd盤可以設成4或者更高,max_merge_count默認等于max_thread_count+5,也可以單獨設置
可以通過命令查看默認的集群參數配置:
GET _settings/?include_defaults
可以配置到配置文件當中,也可以通過以下命令針對索引進行動態設置:
PUT index_name/_settings
{
"index.merge.scheduler.max_thread_count": 4,
"index.merge.scheduler.max_merge_count": 20
}
2.mlock
通過修改線程數之后,限流的問題解決了,但是應用的寫入rt耗時問題還是沒有得到解決 。通過對"hot_threads"進行分析發現主要的耗時還是在merge和index兩大塊,并且通過os層面的監控發現mlock的占用內存一直在增長,啟動參數配置文件設置在內存鎖定“bootstrap.memory_lock: true”不明白為什么還會出現mlock的增長。
處理辦法:
將硬件配置降回到32C64G問題解決,增加一副本來提升查詢性能
3、總結
經過3天問題排查,網上也沒有找到類似的案例,網上更多的還是限流相關的案例,總結下來應該還是當前版本對于大內存的處理相關的bug,在7.x版本沒有出現類似的內存問題
原文鏈接:https://www.cnblogs.com/chenmh/p/16718646.html
相關推薦
- 2022-07-23 C#中的隨機數函數Random()_C#教程
- 2023-09-18 Tomcat控制臺中文亂碼
- 2023-02-05 expect實現Linux自動登陸遠程機器腳本實例_Linux
- 2023-04-12 Python批量刪除txt文本指定行的思路與代碼_python
- 2022-08-02 Python?Http發送請求淺析_python
- 2022-03-24 postman接口做關聯測試的方法步驟_相關技巧
- 2022-04-14 C#可變參數params示例詳解_C#教程
- 2022-04-23 arguments獲取當前所在函數
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支