100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > NVIDIA重塑AI和HPC领域!发布144TB显存的超级计算机!

NVIDIA重塑AI和HPC领域!发布144TB显存的超级计算机!

时间:2024-01-21 12:55:05

相关推荐

NVIDIA重塑AI和HPC领域!发布144TB显存的超级计算机!

在的COMPUTEX大会上,NVIDIA宣布了其最新的产品——NVIDIA DGX GH200,这是一款通过“多芯”方式构建的具有144TB 共享GPU内存的超级计算机,标志着GPU加速计算的又一次突破,能够处理最苛刻的大型AI工作负载。

NVIDIA DGX GH200的核心是NVIDIA Grace Hopper Superchip和NVLink Switch System,这两者的结合使得最多256个GPU能够在一个NVIDIA DGX GH200系统中联合起来。在DGX GH200系统中,144TB的内存将以高速NVLink的形式对GPU共享内存编程模型开放。相比于单个NVIDIA DGX A100 320 GB系统,NVIDIA DGX GH200提供了近500倍的内存给GPU共享内存编程模型,形成了一个巨大的数据中心级GPU。NVIDIA DGX GH200是首个打破100TB内存可访问GPU的超级计算机。

NVIDIA DGX GH200的系统架构由NVIDIA Grace Hopper Superchip和NVLink Switch System构成。NVIDIA Grace Hopper Superchip结合了Grace和Hopper架构,使用NVIDIA NVLink-C2C提供了一个CPU + GPU的一致性内存模型。NVLink Switch System,由第四代NVLink技术驱动,扩展了NVLink连接,跨越超级芯片创建了一个无缝的、高带宽的多GPU系统。

nvidia官方图片

每个NVIDIA Grace Hopper Superchip在NVIDIA DGX GH200中都有480GB的LPDDR5 CPU内存,与DDR5相比,每GB的功耗只有八分之一,还有96GB的快速HBM3。NVIDIA Grace CPU和Hopper GPU通过NVLink-C2C相互连接,提供的带宽是PCIe Gen5的7倍,功耗只有五分之一。

nvidia官方图片

NVLink Switch System形成了一个两级的、非阻塞的、胖树NVLink布局,完全连接了DGX GH200系统中的256个Grace Hopper Superchip。DGX GH200中的每个GPU都可以以900GBps的速度访问其他GPU的内存和所有NVIDIA Grace CPU的扩展GPU内存。

托管Grace Hopper Superchip的计算基板通过定制的电缆束连接到NVLink Switch System,形成了NVLink布局的第一层。LinkX电缆在NVLink布局的第二层扩展了连接性。

在DGX GH200系统中,GPU线程可以使用NVLink页面表从NVLink网络中的其他Grace Hopper Superchip访问对等的HBM3和LPDDR5X内存。NVIDIA Magnum IO加速库优化了GPU通信的效率,增强了所有256个GPU的应用程序扩展性。

4090走一波! ¥14899 购买

DGX GH200中的每个Grace Hopper Superchip都配备了一个NVIDIA ConnectX-7网络适配器和一个NVIDIA BlueField-3 NIC。DGX GH200具有128TB的双向带宽和230.4 TFLOPS的NVIDIA SHARP网络内计算能力,用于加速AI中常用的集合操作,并通过减少集合操作的通信开销,使NVLink网络系统的有效带宽翻倍。

nvidia官方图片

为了扩展超过256个GPU,ConnectX-7适配器可以互连多个DGX GH200系统,扩展成更大的解决方案。BlueField-3 DPU的强大功能可以将任何企业计算环境转化为安全且加速的虚拟私有云,使组织能够在安全的多租户环境中运行应用工作负载。

NVIDIA DGX GH200的目标使用场景和性能优势在于其在GPU内存方面的代际跃进,显著提高了AI和HPC应用的性能。许多主流的AI和HPC工作负载可以完全驻留在单个NVIDIA DGX H100的聚合GPU内存中。对于这样的工作负载,DGX H100是最高效的训练解决方案。而对于需要大量内存的更高级的AI和HPC模型,如DLRM、TB级图神经网络训练模型或大数据分析工作负载,DGX GH200能够提供4倍到7倍的加速,这表明DGX GH200是一个更好的解决方案。

nvidia官方图片

NVIDIA DGX GH200的每一个组件都被精心选择,以最大化网络性能,充分利用所有的硬件能力,实现线性可扩展性和高利用率。为了充分利用这个先进的系统,NVIDIA还设计了一个极高速度的存储网络,以峰值容量运行,处理各种类型的数据。

NVIDIA DGX GH200配备了NVIDIA Base Command,这是一个为AI工作负载优化的操作系统,包括集群管理器,加速计算、存储和网络基础设施的库,这些都是为DGX GH200系统架构优化的。此外,DGX GH200还包括NVIDIA AI Enterprise,提供了一套软件和框架,这些都是为了简化AI的开发和部署而优化的。这个全栈解决方案使得客户可以专注于创新,而不必过多地担心管理他们的IT基础设施。

nvidia官方图片

NVIDIA正在努力使DGX GH200在今年年底前上市。NVIDIA渴望提供这款首次亮相的超级计算机,以赋能你在解决当今最大的AI和HPC挑战时进行创新和追求你的热情。它的出现将极大地推动AI和HPC领域的发展,不仅提升了AI和HPC应用的性能,更为科学家们提供了一个可以解决超常规挑战的先进平台,同时也预示着我们正在进入一个全新的计算时代,一个由超级计算机驱动的时代。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。