一次ElasticSearch集群jvm占用高的排查解决过程

最新推荐文章于 2026-04-15 20:35:27 发布

原创最新推荐文章于 2026-04-15 20:35:27 发布 · 1.4k 阅读

26 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#elasticsearch #大数据 #搜索引擎

ElasticSearch 专栏收录该内容

1 篇文章

订阅专栏

一、问题现象

项目上使用flink将实时数据写入ES,随着每天数据的逐渐增多，最近出现flink程序经常性挂掉的现象，导致数据出现积压和延迟。

二、问题排查过程

1、查看flink日志

首先查看flink任务的运行状态和日志，发现flink的CheckPoint失败频繁，一旦失败的次数达到指定的值任务就会重启，短时间内任务频繁重启,如下图所示：

通过flink任务的背压分析，发现是写入ES超时失败导致的，排查ES集群所在的服务器cpu负载、内存使用、磁盘和网络负载，发现均正常。

2、查看es集群日志

继续查看es节点的日志，发现下面的报错：

org.elasticsearch.common.breaker.CircuitBreakingException: [parent] Data too large, date tor [indices:data/write/bulk[s]] would be [31702096886/29.5],which is large than the limit of ......

这个报错就说明es出现了内存熔断的现象，es集群为了防止出现OOM的问题，有内存熔断的机制，如果jvm的内存使用量超过95%，则会拒绝所有的读写请求。

在kibana中查看ES集群资源占用情况，cpu和load负载都不高，发现各节点的jvm的使用率在90%左右，属于异常现象，如下图所示：

3、ES集群jvm内存占用分析

既然是jvm占用高，那就得分析出jvm中哪部分数据占用的内存高，对ES内存模型中的常用的index buffer、queryCache、requestCache、fieldDataCache、segmentsCache做内存占用分析，可在kibana中执行如下命令获取内存占用情况：

GET /_cat/nodes?v&h=name,port,sm

GET /_cat/nodes?v=true&h=name,heap*,fielddata.memory_size,query_cache.memory_size,request_cache.memory_size

得出结果如下：

内存类型	占用量
index buffer	3g (默认最大是占用jvm的10%，按照最大来算)
queryCache	1.2g
requestCache	500mb
fieldDataCache	1.5g
segmentsCache	260mb