Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡

这篇具有很好参考价值的文章主要介绍了Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Dell R730是一款非常流行的服务器,2U的机箱可以放入两张显卡,这次先用一张英伟达上代专业级AI训练卡:P4卡做实验,本文记录安装过程。

简洁步骤:

  1. 打开机箱
  2. 将P4显卡插在4号槽位
  3. 关闭机箱
  4. 安装驱动

2u服务器怎么安装显卡,项目实践,深度学习,人工智能,ai,P4

详细步骤:

对于新手来说,步步为坑,有很多小细节需要注意。

了解硬件情况

首先了解到,R730号称可以装两块显卡
打开机箱,发现pci扩展槽上有4567四个插槽。
其中4号槽位是PCI-E3×16 ,其它三个槽位是PCI-E3×8 ,因此决定将P4插在4号槽。 另外要注意的是4号槽对应CPU2 ,因此单CPU是不能用这个插槽的。

我的这台机器4号槽位还有个插槽保护部件插在上面,怎么拿下来也是尝试了一小会儿。

第一次装显卡,插卡的免螺丝固定部分,有个塑料件,安装前需要先用手扳上来,实在难住了我,多次尝试才找到发力点,话说Dell的免螺丝设计还是挺不错的。插好P4后,再把那个塑料固定件按下去固定显卡。

装好之后,在ESXi下,找PCI设备,将P4卡设置为直通。

这样p4卡的硬件部分就安装完成了!

安装系统ESXi+Ubuntu22.0

原系统是raid0,改成了raid1。

重新安装ESXi,然后再创建Ubuntu虚拟机,装Ubuntu22.0版本,确认将P4卡在ESXi里设为设为直通。

注意,设为直通后,就要设置“保留内存”选项,也就是设置了多少内存就要保留多少内存,否则虚拟机报错无法启动。参见:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

P4驱动安装

安装驱动比较顺手了,先

从官网下载驱动再手动安装。

用nvidia-smi验证驱动是否安装好了,碰到了问题:

报错:couldn't communicate with the NVIDIA

使用从官网下驱动,手动安装的方式,结果安装后运行nvidia-smi报错:不能与nvidia驱动通信。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

换一种方法,

使用 ubuntu-drivers 安装驱动

执行:

sudo ubuntu-drivers devices # 查看可以装的驱动

sudo ubuntu-drivers autoinstall  # 安装驱动

结果还是显示无法与nvidia驱动通信....

使用dkms安装驱动

网上建议用dkms安装驱动,执行:

sudo apt install dkms

sudo dkms install -m nvidia -v 525.147.05

这样由dkms安装驱动,非常简单方便。我记得这里的驱动需要从前面sudo ubuntu-drivers devices显示的驱动里面选。

安装驱动的时候提示重启之后需要密码验证。(我没看见验证啊)

问题没有解决。

apt install安装驱动

先看有哪些驱动

sudo nvidia-drivers device

vendor   : NVIDIA Corporation
model    : GP104GL [Tesla P4]
driver   : nvidia-driver-390 - distro non-free
driver   : nvidia-driver-450-server - distro non-free
driver   : nvidia-driver-470 - distro non-free recommended
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-418-server - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin

然后使用apt安装:sudo apt install nvidia-driver-470-server

apt 安装也还是不行。

skywalk@ub22:~$ sudo modprobe nvidia
modprobe: ERROR: could not insert 'nvidia': Operation not permitted

ubuntu 已经说了推荐nvidia-driver-470,再来一次:

sudo apt install nvidia-driver-470

照旧。

其实上面四种安装驱动的方法都是可行的,但是为什么会报错呢? 原来是因为有个地方没有设置对!

设置 关闭 UEFI 安全引导

看到这篇文章里ESXI8.0下直通NVIDIA Tesla P4显卡给Ubuntu22.04系统中Docker容器里的Jellyfin使用 - 哔哩哔哩 (bilibili.com)讲到“是否为此虚拟机启用 UEFI 安全引导” 这里要关掉。

关掉试试,再执行nvidia-smi,哇,成功拉!

安装pytorch和飞桨paddlepaddle

到各自的官网,通过官网指引进行pip或conda安装,AI训练环境搞定!

如果飞桨碰到“libstdc++.so.6: version 'GLIBCXX_3.4.30' not found”报错,使用

conda install -c conda-forge gcc=12.2.0 -y 解决问题。

总结

使用ESXi虚拟机在Ubuntu安装P4计算卡有几个注意的细节:

1 ESXi里虚拟机ubuntu的内存设置里需要勾选“保留内存”

2 在ESXi里设置P4计算卡为“直通”

3 ESXi里虚拟机ubuntu的启动设置里关闭“是否为此虚拟机启用 UEFI 安全引导”

其它地方就跟我们平时使用一样了。

前一篇:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客文章来源地址https://www.toymoban.com/news/detail-853447.html

到了这里,关于Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • R730服务器热插拔换磁盘(raid阵列)

    R730服务器热插拔换磁盘(raid阵列)

    r730服务器发现磁盘闪橙等,说明磁盘报警了,这时候我们就要换磁盘了。 由于本服务器磁盘是raid5的阵列磁盘,所以要采用热插拔的方式换磁盘。 这边要注意的是,不能关机的时候,直接来换磁盘。 因为关机换磁盘,那个更换的磁盘不能正常在线。 所以我们必须开机换磁盘

    2024年02月08日
    浏览(8)
  • R730服务器搭载专用的Tesla P40显卡:详细指南及示例代码

    在本篇文章中,我们将详细介绍R730服务器与搭载的专用显卡Tesla P40的相关信息,并提供一些示例代码来帮助您开始使用这个强大的组合。无需担心,我们将以易懂的方式进行讲解,使您能够快速上手。 R730服务器简介 Dell EMC PowerEdge R730是一款高性能的服务器,设计用于满足各

    2024年02月03日
    浏览(81)
  • R730服务器做了raid的硬盘,插在R720上面可以用吗?

    R730服务器做了raid的硬盘,插在R720上面可以用吗?

    戴尔R720 戴尔R730 R730服务器做了raid的硬盘,插在R720上面可以用吗? 1.直接在 R730服务器做了raid的硬盘,卸下来在插在r720上面使用 ,读不到硬盘 2.前往R730服务器上面,去清除RAID配置的,在BIOS设置中,找到RAID配置或存储配置(Storage Configuration)选项 这个选项的位置可能因服

    2024年01月23日
    浏览(13)
  • 戴尔服务器R730XD增加万兆光卡后风扇满速运转解决办法

    最近一台比较老的730xd的服务器上增加一块光卡,开机后风扇狂转,噪音极大,查看iDREC ,温度都正常。 网上找了很久,找到了解决办法。目前风扇转速已经降下来,9%的转速,温度也正常。记录一下解决办法(windows电脑通过命令行远程iDRAC): 下载并安装 Dell EMC iDRAC Tools for

    2024年02月14日
    浏览(54)
  • 借助 Clover 引导主板不支持NVMe固态硬盘上的系统(以启动R730XD服务器上的NVME固态的RAID1 PVE系统为例)

    R730XD服务器挺不错,就是缺少NVME驱动,不能直接引导NVME上面的系统。借助黑苹果常用的引导工具:四叶草Clover,便可实现引导NVME上的系统 到github下载最新版本的Clover:选择名字形如 CloverV2-5XXX.zip 的即可。 解压后找到 EFICLOVERdriversoffNvmExpressDxe.efi 复制一份到 EFICLOVERd

    2024年02月07日
    浏览(10)
  • Dell服务器安装Ubuntu系统

    Dell服务器安装Ubuntu系统

    镜像链接 http://old-releases.ubuntu.com/releases/20.04.2/ubuntu-20.04.2-live-server-amd64.iso 版本可以根据自己要求选择。 做启动盘 我用的是ultraiso 记得先格式化,再写入。 按F11,进入BIOS manager ,选择 one-shot bios 选项,选择USB       ip我选择用DHCP,网管后续给我与mac绑定了  代理为空就好了

    2024年02月12日
    浏览(31)
  • DELL服务器安装Windows server系统(原服务器已有系统)

    DELL服务器安装Windows server系统(原服务器已有系统)

    说明: 在此文章中: 使用的镜像是windows server2016. 使用的服务器是DELLEMC R740. 原有的系统是Centos。 下载地址如下 https://rufus.ie/downloads/ 百度网盘下载地址: 链接:https://pan.baidu.com/s/1K9o65F8hK05xxsDQZ0k0mw?pwd=nexs  提取码:nexs 官网下载地址如下: Windows Server 2022 | Microsoft Evaluation

    2024年02月06日
    浏览(9)
  • 1U和2U的服务器怎么选择

    企业建设网站的过程中,离不开租用服务器的环节,服务器在多种场景里面都可以发挥作用,服务器租用渠道有哪些?1U、2U选哪种服务器比较好?大家跟着壹基比小鑫一起来了解具体内容吧!   1U、2U选哪种服务器比较好?   我们常见的机架式服务器分为1U、2U、4U,现在

    2024年02月11日
    浏览(10)
  • Dell服务器安装VMware ESXi 6.7.0

    Dell服务器安装VMware ESXi 6.7.0

    本文档安装的系统镜像为 VMware-VMvisor-Installer-6.7.0.update03-20497097.x86_64-DellEMC_Customized-A19.iso Dell服务器安装系统前磁盘一定要做raid,不然指定安装位置时会找不到磁盘 本文档是远程连接iDRAC口打开虚拟控制台安装系统 文档后面附带如何修改系统IP地址,启用网卡 1、打开虚拟控制

    2024年02月04日
    浏览(13)
  • [CentOS] Dell塔式服务器安装CentOS7

    [CentOS] Dell塔式服务器安装CentOS7

    主要基于 UEFI + GPT方式引导,Legacy+MBR的方式这里不做讨论 CentOS7.5 UltraISO 9.3.x 机型:DELL OPTIPLEX 7080 机型: DELL OPTIPLEX 5090 机型: DELL OPTIPLEX 300 U盘:容量8G及以上 以上三款机型均通过测试 启动方式: UEFI (Boot list option 选择UEFI) 硬盘模式: ACHI (SATA operation选择ACHI) 关闭安全

    2024年02月06日
    浏览(19)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包