功能强大的端到端 AI 超级计算平台。
庞大的数据集、呈爆炸式增长的模型大小和复杂的模拟需要多个极速互连的 GPU 以及充分加速的软件堆栈。NVIDIA HGX™ AI 超级计算平台整合了 NVIDIA GPU、NVIDIA® NVLink®、NVIDIA InfiniBand 网络及 NVIDIA NGC™ 目录中经全面优化的 NVIDIA AI 和 HPC 软件堆栈,提供出色的应用性能。NVIDIA HGX 具备端到端性能和灵活性,可助力研究人员和科学家整合模拟仿真、数据分析和 AI,推动科学研究取得新进展。
NVIDIA HGX 将 NVIDIA A100 Tensor Core GPU 与高速互连技术相结合,打造功能强大的服务器。HGX 拥有 16 个 A100 GPU,具有高达 1.3 TB 的 GPU 显存和超过 2 TB/秒的显存带宽,可实现非凡加速。
与前几代产品相比,HGX 借助 Tensor Float 32 (TF32) 开箱即可为 AI 提供高达 20 倍的加速,同时借助 FP64 实现 2.5 倍的 HPC 加速。NVIDIA HGX 提供了令人惊叹的 10 petaFLOPS,为 AI 和 HPC 领域打造出全球性能强劲的加速扩展服务器平台。
HGX 经过全面测试且易于部署,可集成至合作伙伴服务器中,以提供有保证的性能。HGX 平台提供 4-GPU 和 8-GPU HGX 主板并采用 SXM GPU,也可采用 PCIe GPU 的形式以提供模块化部署选项,为主流服务器带来卓越计算性能。
DLRM 训练
基于 HugeCTR 框架的 DLRM,精度 = FP16 | NVIDIA A100 80GB 批量大小 = 48 | NVIDIA A100 40GB 批量大小 = 32 | NVIDIA V100 32GB 批量大小 = 32。
深度学习模型的大小和复杂性急剧增加,需要系统具备大容量内存、强大计算能力和快速互连能力来实现可扩展性。 借助 NVIDIA NVSwitch™ 提供的高速多对多全 GPU 通信,HGX 能处理极其先进的 AI 模型。A100 80GB GPU 使 GPU 显存容量提高了一倍,可在单个 HGX 中提供高达 1.3 TB 的显存。对于在拥有庞大数据表的超大模型(深度学习推荐模型 (DLRM))上出现的新兴工作负载,相较于 A100 40GB GPU 驱动的 HGX,它能将处理性能加速高达 3 倍。
大数据分析基准测试 | 针对 10TB 数据集的 30 次分析零售查询、ETL、ML、NLP | V100 32GB,RAPIDS/Dask | A100 40GB 和 A100 80GB,RAPIDS/Dask/BlazingSQL
机器学习模型需要通过加载、转换和处理极大型数据集来获取重要见解。借助高达 1.3TB 的统一显存和通过 NVSwitch 实现的多对多全 GPU 通信,由 A100 80GB GPU 驱动的 HGX 能够加载巨大的数据集并对其执行计算,从而快速获得可行见解。 在大数据分析基准测试中,A100 80GB 提供见解的吞吐量比 A100 40GB 高两倍,因此非常适合处理数据集大小急增的新型工作负载。
HPC 应用程序需要每秒执行大量计算增加每个服务器节点的计算密度可大幅减少所需的服务器数量,因而能够大大节省数据中心所用成本和空间并降低功耗。在模拟仿真方面,高维矩阵乘法需要每个处理器从众多相邻处理器中提取数据以执行计算,这使得通过 NVIDIA NVLink 连接的 GPU 非常适合此用途。HPC 应用还可以利用 A100 中的 TF32 在 4 年内将单精度、密集矩阵乘法运算的吞吐量提高多达 11 倍。
由 A100 80GB GPU 提供支持的 HGX 在 Quantum Espresso(一种材质模拟)上提供了比 A100 40GB GPU 高 2 倍的吞吐量,加快了见解获取速度。
热门 HPC 应用
应用加速的几何平均数与 P100 加速性能对比:基准应用:Amber [PME-Cellulose_NVE]、Chroma [szscl21_24_128]、GROMACS [ADH Dodec]、MILC [Apex Medium]、NAMD [stmv_nve_cuda]、PyTorch (BERT-Large Fine Tuner]、Quantum Espresso [AUSURF112-jR]、随机森林 FP32 [make_blobs (160000 x 64 : 10)]、TensorFlow [ResNet-50]、VASP 6 [Si Huge] | 包含双路 CPU 和 4 个 NVIDIA P100、V100 或 A100 GPU 的 GPU 节点。
Quantum Espresso
使用 CNT10POR8 数据集测量 Quantum Espresso 时的结果,精度 = FP64。
NVIDIA HGX 提供单主板四个或八个 A100 GPUs(每个 GPU 的显存为 40GB 或 80GB)的规格。4-GPU 配置与 NVIDIA NVLink® 完全互联,8-GPU 配置与 NVSwitch 互连。使用 NVSwitch 互连可以组合两个 NVIDIA HGX A100 8-GPU 主板,从而形成强大的 16-GPU 单节点。
HGX 还有 PCIe 外形规格,提供模块化、易部署的选项,为主流服务器带来卓越计算性能,每个 GPU 均可选择 40GB 或 80GB 的显存。
这种强大的硬件和软件组合为打造非凡 AI 超级计算平台奠定了基础。
* 采用稀疏技术
借助 HGX,我们还可以采用 NVIDIA 网络,以加速和卸载数据传输,并确保计算资源得到充分利用。智能适配器和交换机可缩短延迟、提高效率、增强安全性并简化数据中心自动化,从而为端到端应用提升性能。
数据中心是新的计算单元,HPC 网络在提升整个数据中心应用性能方面发挥着不可或缺的作用。NVIDIA InfiniBand 凭借软件定义网络、网络计算加速、远程直接内存访问 (RDMA)、网络的转发速度及效率等优势,进一步引领技术潮流。
NVIDIA HGX-1 and HGX-2 are reference architectures that standardize the design of data centers accelerating AI and HPC. Built with NVIDIA SXM2 V100 boards, with NVIDIA NVLink and NVSwitch interconnect technologies, HGX reference architectures have a modular design that works seamlessly in hyperscale and hybrid data centers to deliver up to 2 petaFLOPS of compute power for a quick, simple path to AI and HPC.
阅读这份深度技术指南,了解 NVIDIA Ampere 架构的新变化及其在 NVIDIA A100 GPU 中的实现方式。