适用于现代 GPU 加速型数据中心的 IO 子系统
该全新计算单元为数据中心,其核心为 NVIDIA GPU 和 NVIDIA 网络。加速计算要求加速输入/输出 (IO),以更大限度提升性能。现代数据中心的 IO 子系统 NVIDIA Magnum IO™ 是适用于并行异步智能数据中心 IO 的架构,能更大限度提升存储和网络 IO 性能,为多 GPU、多节点加速提供支持。
绕过 CPU,在 GPU 显存、网络和存储中直接实现 IO,进而将带宽提升至十倍。
通过减少 CPU 争用构建更平衡的 GPU 加速型系统,可提供最大 IO 带宽,CPU 核心使用减少至之前的十分之一,CPU 利用率降低至三十分之一。
无论是在延迟敏感的小数据包传输,还是带宽敏感的大数据包传输,抑或是两者混合型,都可以为现在和未来的平台提供优化。
Magnum IO 利用存储 IO、网络 IO、网内计算和 IO 管理,简化并加速多 GPU、多节点系统的数据传输、访问和管理。Magnum IO 支持 NVIDIA CUDA-X™ 库,并充分利用各类 NVIDIA GPU 和 NVIDIA 网络硬件拓扑来实现最优吞吐量和低延迟。
[Developer Blog] Magnum IO - 加速现代数据中心的 IO 性能
在多节点、多 GPU 系统中,运行缓慢的 CPU 单线程性能严重影响了从本地或远程存储设备访问数据的效率。借助存储 IO 加速,GPU 可绕过 CPU 和系统内存,通过八个 200Gb/s 的网卡访问远程存储,实现高达 1.6Tb/s 的原始存储带宽。
相关技术包括:
NVIDIA NVLink® 架构和基于 RDMA 的网络 IO 加速可降低 IO 开销,绕过 CPU,并实现 GPU 到 GPU 的线速直接数据传输。.
网内计算可实现网络内处理,消除遍历各节点或过程中发生跳跃导致的延迟。数据处理单元 (DPU) 采用软件定义、网络硬件加速的计算,包括预配置的数据处理引擎和可编程引擎。
用户需要先进的网络感知和深度故障排除技术,才能实现计算、网络和存储等各类 IO 优化。Magnum IO 管理平台可助力研究和工业数据中心操作人员对现代数据中心架构进行高效预配、监控与管理以及预防性维护。
Magnum IO 可与 NVIDIA CUDA-X 高性能计算 (HPC) 和人工智能 (AI) 库交互,加速 IO,使其用于各类用例,涵盖 AI 和科学可视化等领域。
目前,数据科学和机器学习 (ML) 是计算能力需求最大的领域。预测式 ML 模型的准确性即便提升微小,最少也能带来数十亿美元的价值。为提升准确性,RAPIDS 加速器库基于 UCX 构建了内置 Apache Spark shuffle,可将其配置为开启 GPU 对 GPU 通信和 RDMA 功能。NVIDIA 数据中心平台与 NVIDIA 网络、Magnum IO 软件、GPU 加速型 Spark 3.0 和 NVIDIA RAPIDS™ 相结合,具有独特的优势,能够以出色的性能和效率加速这些大规模工作负载。
Adobe 借助 Databricks 上的 Spark 3.0,将模型训练速度提升了七倍,同时节省了 90% 的成本
HPC 是现代科学的基石。为点燃新一代发现的火花,科学家们希望通过仿真,更好地理解复杂分子结构以支持药物发现,理解物理现象以寻找潜在的新能源,理解大气数据以更好地预测极端天气状况并为其做准备。Magnum IO 提供硬件级加速引擎和智能卸载,例如 RDMA、NVIDIA GPUDirect®和 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ 功能,同时支持 HDR 200Gb/s InfiniBand 的高带宽和超低延迟。这可以提供超高性能,以及任意规模的高效 HPC 与 ML 部署。
规模最大的交互式立体数据可视化 - 150TB 的 NASA 火星着陆器仿真
当今的 AI 模型需要应对对话式 AI 和深度推荐系统等新型挑战,这促使其复杂度持续呈爆炸式增长。与 ResNet-50 等图像分类模型相比,训练 NVIDIA Megatron-BERT 等对话式 AI 模型所需的算力增加了 3000 多倍。研究人员需要强大的性能和巨大的可扩展性,才能不断在 AI 领域取得突破性进展。HDR 200Gb/s InfiniBand 网络和 Magnum IO 软件堆栈结合后,可实现单集群中数千台 GPU 的高效可扩展性。
Facebook 数据中心的深度学习训练:纵向扩展和横向扩展系统的设计
注册以获取新闻和更新。
便于 IO 直接传输到 GPU 显存,消除了往返 CPU 或系统内存的昂贵数据路径瓶颈。避免了通过系统内存额外进行复制的延迟开销,这会影响较小的传输,并通过提供更大的操作独立性,解决 CPU 利用率瓶颈。
了解详情 ›
阅读博文:GPUDirect Storage:存储和 GPU 显存之间的直接路径 (GPUDirect Storage: A Direct Path Between Storage and GPU Memory)
观看网络研讨会:NVIDIA GPUDirect Storage:加快通往 GPU 的数据路径
逻辑上将 NVMe over Fabrics (NVMe-oF) 等网络存储用作本地 NVMe 驱动,可使主机 OS或虚拟机Hypervisor 使用标准 NVMe 驱动而非远程网络存储协议。
这是一套资源库和经过优化的网卡驱动程序,用于在用户空间实现数据包快速处理,可为高速网络应用提供框架和通用 API。
为网络适配器提供权限,使其可直接在同级设备中读取或写入内存数据缓冲区。允许基于 RDMA 的应用使用同级设备的计算能力,而无需通过主机内存复制数据。
开源生产级通信框架,用于以数据为中心的高性能应用。包含一个低层级接口,可提供底层硬件支持的基本网络操作。软件包包括:MPI 和 SHMEM 库、统一通信 X (UCX)、NVIDIA SHARP、KNEM 和标准 MPI 基准。
通过相互通信的处理器之间的紧密同步,实现拓扑感知型通信原语。
提供基于 OpenSHMEM 标准的编程接口,为分布于多个服务器的多个 GPU 显存中的数据构建全局地址空间。
开源生产级通信框架,用于以数据为中心的高性能应用。包含一个低层级接口,可提供底层硬件支持的基本网络操作。还包含一个高层级接口,用于构建 MPI、OpenSHMEM、PGAS、Spark 以及其他高性能和深度学习应用中使用的协议。
ASAP2 包含了一系列加速交换和数据包处理的功能,可以卸载数据Steering和安全等操作从CPU到网络,大幅提升系统效率,加强安全控制,并将这些控制操作与恶意应用隔离开来。
NVIDIA® BlueField® DPU 分流 CPU 中关键的网络、安全和存储任务,是解决现代数据中心中性能、网络效率和网络安全问题的卓越解决方案。
减少 MPI 通信时间,改善计算和通信之间的重叠问题。NVIDIA Mellanox InfiniBand 适配器可以将 MPI 消息处理从主机上卸载到网卡上,实现 MPI 消息的零复制。
提升 MPI、SHMEM、NCCL 和其他用例中的数据规约与聚合算法的性能,方法是将这些算法从 GPU 或 CPU 卸载到交换机上,从而消除在各节点之间多次发送数据的需求。SHARP 集成可将 NCCL 性能提升四倍,MPI 集合延迟方面则会获得七倍的性能提升。
实现以太网解决方案的网络编排、预配、配置管理、架构运行情况的深入可见性、流量利用率以及管理。
为 InfiniBand 提供数据中心中架构的调试、监控、管理和高效预配功能。借助 AI 助力的网络智能和分析,支持实时网络遥测。