长沙市网站建设_网站建设公司_阿里云_seo优化
2025/12/21 5:15:50 网站建设 项目流程

问题描述

k8s 环境有天主机故障关机了很长时间,但是没有执行 kubectl delete node 【nodename】剔除节点,过了一段时间发现KubeNodeNotReadyKubeNodeUnreachable这两个告警在恢复和告警之间切换,这明显不正常,因为节点都已经关机,怎么可能恢复。

排查步骤

经过排查才发现是kube_node_status_condition{node="nodename"}这个指标时断时续(偶尔指标缺失),问题就是指标缺失造成的(指标缺失就认定为告警恢复)。

然后查看kube-state-metrics pod的日志发现如下错误,prometheus pod未发现错误日志。

E122007:28:28.0369131metrics_handler.go

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询