小码问答,有问必答!

Docker 容器里部署带 GPU 支持的 AI 服务,宿主机驱动升级后容器内 CUDA 版本不匹配报错,怎么彻底解决?

生产环境用的 Kubernetes 集群,跑着几个 Python 推理服务。上周运维升级了宿主机的 NVIDIA 驱动,结果所有 Pod 启动时报 CUDA error: unknown error 或者找不到 libcuda.so。明明 Dockerfile 里指定了 CUDA 版本啊。听说跟 nvidia-container-toolkit 有关,但每次重启节点都要手动干预太麻烦了。大家是怎么配置 CI/CD 流程,确保基础镜像、驱动和容器运行时版本严格对齐的?有没有自动化的健康检查脚本推荐?

项目

收藏

暂无回答

我要回答