内容纲要
概要描述
本文描述Manager升级到8.x时,TOS升级到新版本,Sophon无法识别GPU的解决方案
详细说明
1 问题描述
升级到Manager新版本后,Sophon无法识别到节点的GPU
而tdh04和tdh05节点都是有GPU的
2 问题原因
F12排查gpu问题
能看到GPU的正常环境F12出来的all结果如下:
客户的环境无法看到GPU信息,截图如下
而gpu 这里的信息, 是从kubectl describe node xxxx 去读取的
能看到GPU正常环境的结果如下:
而客户的环境结果显示如下:
3 解决方案
-
确保kubelet 服务正常
systemctl status kubelet
-
查看device-plugin是否存在
kubectl -n kube-system get po -o wide | grep device-plugin
发现是没有的
-
如果device-plugin pod未启动,需要给gpu节点的device-plugin打上 label,打上标签pod会自动启动
kubectl label node $(hostname) nvidia-device-plugin-ds-tos=enable
-
device-plugin pod正常启动后可以describe node看到节点上已经显示 gpu信息
页面显示正常