一、先确认:这台机器到底有没有 NVIDIA 显卡(最关键)
1️⃣ 看 PCI 设备(不依赖驱动)
lspci | grep -i nvidia有输出✅ → 机器上有 NVIDIA 显卡
没输出❌ → 这台机器物理上就没有 NVIDIA GPU
👉 如果这里没输出,后面都不用看了。
二、有显卡但没 nvidia-smi → 驱动没装或没生效
2️⃣ 看驱动模块是否存在
lsmod | grep nvidia有输出 → 驱动已加载(但路径可能有问题)
无输出 → 驱动未安装 / 未加载
这里是3张A10的卡
🔴 当前系统的“真实状态”(已确认)
你给出的结果:
lspci | grep -i nvidia # 能看到 3 张 A10 lsmod | grep nvidia # ❌ 没有任何输出👉安装 NVIDIA 驱动
下面我给你一套服务器最稳、不绕弯、不踩坑的完整方案。
一、先确认系统类型(必须)
请你现在执行这两条,然后把输出贴出来:
cat /etc/os-release uname -r⚠️ 原因:
不同系统 → 驱动版本 & 安装方式不同
内核版本不匹配 → 驱动直接加载失败
三、最稳妥的解决方案(按推荐顺序)
⭐ 方案 1(最稳 / 最推荐 / 生产环境常用)
使用NVIDIA 官方 openEuler 驱动仓库(DKMS)
⚠️ 不是.run,是NVIDIA 官方 RPM 仓库
👉 华为云 / 国企 / A10 服务器基本都用这个
一、准备环境(必须)
dnf install -y \ gcc \ gcc-c++ \ make \ dkms \ kernel-devel-$(uname -r) \ kernel-headers-$(uname -r)⚠️ 如果kernel-devel找不到,先执行:
dnf search kernel-devel一、添加 NVIDIA 官方仓库(RHEL8 兼容)
cat >/etc/yum.repos.d/nvidia.repo <<'EOF' [nvidia] name=NVIDIA CUDA Repository baseurl=https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/ enabled=1 gpgcheck=1 gpgkey=https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/D42D0685.pub EOF二、刷新缓存
dnf clean all dnf makecache