问题描述
k8s 环境有天主机故障关机了很长时间,但是没有执行 kubectl delete node 【nodename】剔除节点,过了一段时间发现KubeNodeNotReadyKubeNodeUnreachable这两个告警在恢复和告警之间切换,这明显不正常,因为节点都已经关机,怎么可能恢复。
排查步骤
经过排查才发现是kube_node_status_condition{node="nodename"}这个指标时断时续(偶尔指标缺失),问题就是指标缺失造成的(指标缺失就认定为告警恢复)。
然后查看kube-state-metrics pod的日志发现如下错误,prometheus pod未发现错误日志。
E122007:28:28.0369131metrics_handler.go