记一次 Elasticsearch 问题排查

摘要

我们团队基于Elasticsearch开发了一款将数据从数据库实时同步至Elasticsearch的工具——搜索平台,其实现方式主要是通过flink将数据库中已有的存量数据导入Elasticsearch,并订阅数据表的binlog,将实时改动也同步至Elasticsearch。

AIoT团队在搜索平台上维护了一个较大的索引,其写入平均有2k到3k的tps,查询也有数百QPS。由于该索引较重要且占用资源较多,因此使用Elasticsearch的template功能将之单独部署在专用的机器上。

从5月底开始,写入此索引的flink实时任务就会偶现失败重启的情况,经排查,发现是写入Elasticsearch的请求超时导致的,结合当时机器的cpu占用等指标判定是写入tps过高导致Elasticsearch无法承受,因此,将该索引所占的机器从2台升级到3台,并使用业务数据进行了一轮写入压测,发现能支撑业务方的写入速率,扩完后较长一段时间内,该索引也一直没有出现问题,因此认为问题已经被解决了。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.124.0. UTC+08:00, 2024-04-26 17:34
浙ICP备14020137号-1 $访客地图$