生产环境用的 Kubernetes 集群,跑着几个 Python 推理服务。上周运维升级了宿主机的 NVIDIA 驱动,结果所有 Pod 启动时报 CUDA error: unknown error 或者找不到 libcuda.so。明明 Dockerfile 里指定了 CUDA 版本啊。听说跟 nvidia-container-toolkit 有关,但每次重启节点都要手动干预太麻烦了。大家是怎么配置 CI/CD 流程,确保基础镜像、驱动和容器运行时版本严格对齐的?有没有自动化的健康检查脚本推荐?
暂无回答
我要回答