ONES系统后端服务Checklist
0. 文档目标
10~20 分钟快速判断“后端是否整体正常、哪条链路异常、是否需要升级到日志深挖”。
1 进入环境与确认版本
# 进入运维容器
ones-ai-k8s.sh
# 查看版本(任选)
head config/public.yaml
# 或前端接口: https://<baseurl>/project/api/project/version
2 全局存活检查(第一层)
# 1. 看节点和命名空间
kubectl get node
kubectl get ns
# 2. 看 ones 命名空间 pod
kubectl -n ones get po
# 3. 快速筛异常 pod(非 Running/Completed)
kubectl -n ones get po | grep -viE "Running|Completed"
# 或全局看异常
kubectl get po -A | grep -viE "Running|Completed"
判定:
Running/Completed为主:进入下一步链路检查- 出现
Pending / CrashLoopBackOff / ImagePullBackOff / OOMKilled / Evicted:先查该 Pod 的 events+logs(见第 4 步)
3 入口链路检查(网关 -> 核心服务)
# 从集群看网关组件
kubectl -n ones get po | grep -Ei "ingress|apisix|project-web|project-api"
如果可以在服务器本地 curl(有域名/hosts):
curl -I https://<baseurl>
curl -s https://<baseurl>/project/api/project/version
判定:
- 网关 pod 正常 + version 接口可返回:入口链路基本通
- 若 50x / 超时:重点看 ingress/apisix/project-web/project-api 日志
4 业务链路关键模块检查(第二层)
按文档里的“模块链路”重点看这些:
# 项目核心
kubectl -n ones get po | grep -Ei "project-api|project-web|rabbitmq|redis|mysql"
# Wiki 协同
kubectl -n ones get po | grep -Ei "wiki-api|wiz"
# 搜索链路
kubectl -n ones get po | grep -Ei "kilob-sync|tikv|tidb|binlog-event-sync"
# 审计链路
kubectl -n ones get po | grep -Ei "audit-log|ones-canal|kafka|clickhouse|binlog-event-sync"
# Performance 链路
kubectl -n ones get po | grep -Ei "performance|ones-bi-sync"
# 插件/开放平台(如启用)
kubectl -n ones get po | grep -Ei "ones-platform-api|plugin-runtime|plugin-service-proxy"
判定:
- 每条已启用链路核心组件均 Running 且无频繁重启(
RESTARTS不持续增长)= 后端基本健康 - 某条链路缺组件/异常重启 = 对应功能(搜索、审计、报表等)高风险
5 异常 Pod 标准排查动作(第三层)
对异常 Pod 按固定三板斧:
# 1) 事件(最先看)
kubectl get event -A
kubectl -n <ns> describe po <pod>
# 2) 当前日志
kubectl -n <ns> logs <pod> --tail=200
# 3) 上一次崩溃前日志
kubectl -n <ns> logs <pod> --previous --timestamps --tail=200
# 多容器时
kubectl -n <ns> logs <pod> -c <container> --tail=200
kubectl -n <ns> logs <pod> -c <container> --previous --timestamps --tail=200
# Pod 级 events(按对象过滤)
kubectl -n <ns> get events \
--field-selector involvedObject.kind=Pod,involvedObject.name=<pod> \
--sort-by=.lastTimestamp
常见状态直连处理方向:
Pending:资源不足 / PVC / 调度约束ImagePullBackOff:镜像名、仓库连通、凭证CrashLoopBackOff:应用配置、依赖服务、健康探针OOMKilled:内存限额/节点资源