Manager升级后Sophon无法使用GPU的解决方案

  其他常见问题
内容纲要

概要描述

本文描述Manager升级到8.x时,TOS升级到新版本,Sophon无法识别GPU的解决方案

详细说明

1 问题描述

升级到Manager新版本后,Sophon无法识别到节点的GPU
file
而tdh04和tdh05节点都是有GPU的
file

2 问题原因

F12排查gpu问题
能看到GPU的正常环境F12出来的all结果如下:

file

客户的环境无法看到GPU信息,截图如下

file

而gpu 这里的信息, 是从kubectl describe node xxxx 去读取的

能看到GPU正常环境的结果如下:

file

而客户的环境结果显示如下:

file

3 解决方案

  1. 确保kubelet 服务正常

    systemctl status kubelet
  2. 查看device-plugin是否存在

    kubectl -n kube-system get po -o wide | grep device-plugin

    发现是没有的

  3. 如果device-plugin pod未启动,需要给gpu节点的device-plugin打上 label,打上标签pod会自动启动

    kubectl label node $(hostname) nvidia-device-plugin-ds-tos=enable

    file

    file

  4. device-plugin pod正常启动后可以describe node看到节点上已经显示 gpu信息

    file

    页面显示正常

    file

这篇文章对您有帮助吗?

平均评分 0 / 5. 次数: 0

尚无评价,您可以第一个评哦!

非常抱歉,这篇文章对您没有帮助.

烦请您告诉我们您的建议与意见,以便我们改进,谢谢您。