借助 NVIDIA TensorRT 发挥 NVIDIA GPU 的全部潜能 NVIDIA® TensorRT™ 是一款高性能推理平台,在充分发挥 NVIDIA Tensor 核心 GPU 的强大功能方面发挥着关键作用。与仅使用 CPU 的平台相比,TensorRT 可使吞吐量提升高达 40 倍,同时还可更大限度地降低延迟。使用 TensorRT,您可以从任何框架入手,并在生产环境中快速优化、验证和部署经过训练的神经网络。
借助 NVIDIA Triton 推理服务器简化部署 NVIDIA Triton 推理服务器(以前称为 TensorRT 推理服务器)是一款开源软件,可简化深度学习模型在生产环境中的部署。借助 Triton 推理服务器,团队可以通过任何框架(TensorFlow、PyTorch、TensorRT Plan、Caffe、MXNet 或自定义框架),在任何基于 GPU 或 CPU 的基础设施上从本地存储、Google 云端平台或 AWS S3 部署经过训练的 AI 模型。它可在单个 GPU 上同时运行多个模型,以更大限度地提高利用率,并可与 Kubernetes 集成以用于编排、指标和自动扩展。 了解详情
支持统一、可扩展的深度学习推理 通过搭载统一架构,各深度学习框架上的神经网络均可由 NVIDIA TensorRT 进行训练和优化,然后部署到边缘进行实时推理。借助 NVIDIA DGX™ 系统 、 NVIDIA Tensor 核心 GPU 、 NVIDIA Jetson™ 和 NVIDIA DRIVE™ ,NVIDIA 提供了一个端到端的,完全可扩展的深度学习平台,如 MLPerf 基准套件所示。
显著节省成本 要使服务器保持更高生产效率,数据中心管理者必须在性能与效率之间进行权衡。对于深度学习推理应用和服务而言,一台 NVIDIA T4 服务器可取代多台通用 CPU 服务器,从而降低能耗并节省购置和运营成本。