被动健康检查

发布时间：2021-04-19 19:18:08 所属栏目：动态来源：互联网

导读：一些健康检查是被动的，永远在节点上运行。这些健康检查会监视基本的系统资源，如网络不通畅、磁盘失败、磁盘写满或GPU错误等。GPU会呈现多种错误，但最常见的就是Uncorrectable ECC error(无法修复的ECC错误)。Nvidia的Data Center GPU Manager (DCGM)工具

一些健康检查是被动的，永远在节点上运行。这些健康检查会监视基本的系统资源，如网络不通畅、磁盘失败、磁盘写满或GPU错误等。GPU会呈现多种错误，但最常见的就是“Uncorrectable ECC error”(无法修复的ECC错误)。Nvidia的Data Center GPU Manager (DCGM)工具可以帮助查询该错误，以及许多其他的“Xid”错误。跟踪错误的方法之一就是使用dcgm-exporter工具将度量导出到Prometheus监视系统中。这样就可以创建DCGM_FI_DEV_XID_ERRORS度量，其内容为最近发生过的错误代码。此外，NVMLDevice Query API还可以提供有关GPU的健康情况和操作的更详细信息。

检测到错误之后，通常重启就能修复GPU或系统，尽管有些情况下需要更换显卡。

另一种健康检查会跟踪来自上游云服务提供商的维护事件。每个主流云服务提供商都会提供一种方法，获知当前使用的VM是否即将维护，从而导致服务中断。VM可能需要重启，因为需要给监视程序打补丁，或者给物理服务器更换硬件。

这些被动健康检查在所有节点的后台不断运行。如果运行状况检查开始失败，将自动隔离该节点，这样就不会在该节点上调度新的Pod。对于更严重的健康检查失败，我们还将尝试终止Pod，请求所有当前运行的Pod立即退出。它仍然取决于Pod本身，通过Pod中断预算进行配置，以决定它是否希望允许这种终止发生。最终，在所有Pod终止或7天过去(我们SLA的一部分)之后，我们将强制终止VM。

（编辑：桂林站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

我们应该向其他恒星系	小米推出米家台灯 1S
余承东当下买燃油车就	对标奔驰C级疑似新一代