ES 服务异常
故障表现
- ONES 系统无法搜索
- ES 服务异常,日志报错 java.lang.OutOfMemoryError: Java heap space
- soffice.bin 进程异常占用 CPU/内存超高
故障根因
ONES 使用了 LibreOffice 开源软件,soffice.bin 是 LibreOffice 的一个核心组件。在某些特殊情况下 soffice.bin 没有正常退出、会持续占用 CPU/内存,影响系统性能;导致 es 无法申请到可用内存、报错 OutOfMemoryError。
解决方案
临时方案:
- 手工 kill 掉 soffice.bin 进程
- 重启 ES 服务
后续改进:
- 中期方案:部署一个定时任务,0 点执行,自动杀掉 soffice.bin,重启 ES 服务
- 长期解决:k3s 单机部署模式将做资源限制、避免单个 pod 占用资源过高