被动健康检查
|
一些健康检查是被动的,永远在节点上运行。这些健康检查会监视基本的系统资源,如网络不通畅、磁盘失败、磁盘写满或GPU错误等。GPU会呈现多种错误,但最常见的就是“Uncorrectable ECC error”(无法修复的ECC错误)。Nvidia的Data Center GPU Manager (DCGM)工具可以帮助查询该错误,以及许多其他的“Xid”错误。跟踪错误的方法之一就是使用dcgm-exporter工具将度量导出到Prometheus监视系统中。这样就可以创建DCGM_FI_DEV_XID_ERRORS度量,其内容为最近发生过的错误代码。此外,NVMLDevice Query API还可以提供有关GPU的健康情况和操作的更详细信息。 检测到错误之后,通常重启就能修复GPU或系统,尽管有些情况下需要更换显卡。 另一种健康检查会跟踪来自上游云服务提供商的维护事件。每个主流云服务提供商都会提供一种方法,获知当前使用的VM是否即将维护,从而导致服务中断。VM可能需要重启,因为需要给监视程序打补丁,或者给物理服务器更换硬件。
这些被动健康检查在所有节点的后台不断运行。如果运行状况检查开始失败,将自动隔离该节点,这样就不会在该节点上调度新的Pod。对于更严重的健康检查失败,我们还将尝试终止Pod,请求所有当前运行的Pod立即退出。它仍然取决于Pod本身,通过Pod中断预算进行配置,以决定它是否希望允许这种终止发生。最终,在所有Pod终止或7天过去(我们SLA的一部分)之后,我们将强制终止VM。 (编辑:桂林站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |




