DELL Precision T7920加装显卡遇到的坑 您所在的位置:网站首页 主板可以插2个显卡吗 DELL Precision T7920加装显卡遇到的坑

DELL Precision T7920加装显卡遇到的坑

2023-09-01 06:57| 来源: 网络整理| 查看: 265

文章目录 DELL Precision T7920加装显卡服务器原有配置介绍选购过程确认型号确认PCIE x16插槽确认电源功率和电源线 安装过程电源模组线不够多单装一个3090显卡尺寸问题 加装上1080Ti非常重要!官方文档 开机检测(待解决) 软件配置驱动安装CUDA安装cuDNN 运行环境配置使用体验使用时的问题

DELL Precision T7920加装显卡

实验室由于显卡计算能力不够,以及显卡显存不够,请老师花了大价钱购入了两张GeForce 3090显卡。老师赛高!记录一下这次加装显卡过程中学到的一些知识。

服务器原有配置介绍

服务器原有一张1080Ti显卡,一个Xeon CPU。

选购过程 确认型号

其实选购过程非常简单,可以说是整个流程中最简单的一步了。首先确认需求,我们希望购买一张显存大一些的卡。接着,我们选择了一些候选方案,比如GeForce 3090,GeForce 2080Ti,Tesla P40等。查阅了有关资料之后,发现专业卡由于散热问题不适合放在塔式服务器中,所以打算购置GeForce 3090。京东查询价格在两万出头。

确认PCIE x16插槽

另外,需要先拆开机箱查看PCIE x16的槽数是否满足。3090需要占用3个槽位,1080Ti需要占用2个槽位。初步研究符合要求。

在这里插入图片描述

确认电源功率和电源线

一定要确认电源功率大于CPU+GPU的总功率!!!!

否则主板就爆炸了,带不起来。

安装过程

安装过程中碰到了非常多的问题。以下一一列举。

电源模组线不够多

1080Ti+3090共需要4根模组线。主板上预留了四个口,但是只有三根原装模组线。在询问了各种淘宝京东商家之后,由于他们都无法辨认DELL品牌机的电源型号,从而购线失败。不得已求问戴尔售后,戴尔售后太墨迹了。和技术售后扯皮了半个多小时,其中有80%的时间都在等待状态。最后,他说,可能有6pin转双8pin的模组线。我们说,可以!有就行了…

为了尽早装上试用3090,我们把另一台同样配置服务器上闲置的模组线先拆到本机器上。

单装一个3090

我们把1080Ti拆了下来,在原位置插上3090,进入系统后发现能够看到该显卡,并且显示正常。

显卡尺寸问题

这里一定要注意显卡的尺寸问题,有可能卡的高度太高,导致盖板盖不上;有可能卡的长度太长,导致无法放入机箱中。

如果不是品牌机,是自己的组装机的话,这个问题没有那么严重,直接不装盖板就完事儿了。

但是DELL如果不装盖板的话会报警,直接断电,无法开机。

在研究了它的报警机制之后,我们发现其报警按钮在上侧。因此,只要盖板上侧插入了机箱,就可以避免报警问题。盖板下侧敞开还能增加一些散热hhh。

加装上1080Ti

我们在机箱另一侧(上图中右侧)的PCIE x16槽中装上了1080Ti,再次开机。结果依然只显示一条。为了确定到底是什么问题,我更换了相邻的插槽,拆除了3090,都无法读取到1080Ti这张卡。因此,我怀疑是机箱另一侧的PCIE x16插槽有问题。

非常重要!官方文档

在这时,我灵机一动想到了之前下载过的本机型DELL用户手册。在戴尔产品支持页面输入机箱上的型号或者服务编号进行查询。在用户手册中,有介绍主板的情况。由于我们的服务器是双通道GPU,在机箱另一侧的两根PCIE x16插槽只有在第二块CPU插入的时候才能使用。

于是我们只能在左侧的几个PCIE x16插槽上做文章。左侧刚好有4个插槽,五个插槽的宽度。但是由于最左侧有两个插头插着,因此放不下1080Ti。也是查阅用户手册后发现,这两个插头一个是前面板USB,一个是光驱,对我们来说都没有什么用处,果断拔掉。这样空出来之后,1080Ti刚刚好就能勉强插入。 在这里插入图片描述

开机检测(待解决)

由于拔掉了两个接口,在开机的时候DELL会报错,显示front I/O未接好。思考是否能够通过BIOS设置关闭开机检测,尚未成功。但是由于服务器平时也不会关机,因此开机检测不会造成太大的麻烦。

软件配置

这部分比较简单,也是上次配置服务器的时候做过的,简单描述一下。

驱动安装

前往GeForce驱动下载页面下载驱动。3090和1080Ti可以使用同一版本的驱动。

驱动安装过程参考博客中第二种方法。在安装前执行sudo /usr/bin/nvidia-uninstall来卸载之前版本的驱动。

由于3090显卡过新,通过ubuntu-drivers devices命令无法查询到3090相关信息,无需担忧,直接安装驱动即可。

如果想看3090是否成功接通,可以通过lspci | grep VGA命令来查看系统已有的显卡,其中,3090不会显示版本号,只会显示是Nvidia Corporation。

CUDA安装

首先查询CUDA适配版本,官方文档在这里。需要注意的是,CUDA只需要和驱动版本匹配就可以,不是和显卡型号进行匹配。因此,所有的卡都可以用新的CUDA,只要驱动版本支持。

需要注意的是3090由于驱动版本限制,只能安装11.x的CUDA版本。同时,pytorch官方下载显示的最新1.8版本支持CUDA11.1。因此,我们选用了CUDA11.1进行下载安装。

cuDNN

cuDNN需要和CUDA版本匹配,具体安装方法见博客,重点在复制文件部分。

运行环境配置

最后就是conda环境配置了,如上文所述,需要对pytorch等进行更新。

pytorch官方的安装命令是 conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -c nvidia

而且官方还有一句NOTE: 'nvidia' channel is required for cudatoolkit 11.1

但是可能由于是我的网络问题,一直连不上nvidia,就下不了cudatoolkit。不过我觉得既然我之前都已经配置过NVIDIA官方CUDA了,应该就不需要最后的-c nvidia了吧。于是果断删掉。也顺利安装成功。

剩下的别的包就都很简单了,不再赘述。

使用体验

原本配置好的环境只能在1080Ti上运行。在3090上运行虽然不会报错,但是实际上会卡住,动不了。

在针对3090配置的环境中,可以在两张卡上同时运行。

在运行程序的时候可能需要指定GPU。

使用时的问题

我们发现nvidia-smi和pytorch中显示的GPU顺序不一样。解决该问题的方法见博客。

不建议使用nvcc -V命令。因为它给出的cuda版本和实际安装的版本不同。

不同conda虚拟环境使用不同cuda版本的方法,见博客。

cuda软链接相关博客。

pytorch指定GPU的方法,见博客。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有