英伟达开发者社区免费课程主要提供 NVIDIA GPU 编程相关的学习素材,包括课程简要,课程视频,及课程所需 PPT。
按照以下课程学习,您将了解到相关算力增强的专业知识,包括:CUDA 编程的基础知识以及 AI 计算加速的工具使用。
CUDA编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。通过这堂课,您将学会:
受众目标:针对 GPU 平台程序有开发需求的开发者
时长: 1 小时
PPT 下载链接 (提取码 : wdhz)
链接: (提取码 : op40)
本次课程将深入的介绍如何利用共享内存和常量内存来加速GPU程序,通过本次课程,您将学会
受众目标:针对有 GPU 平台开发需求的开发者
PPT 下载链接 (提取码 : hqjp)
多流执行是 CUDA 编程模型中的重要加速手段,本次课程将深入的介绍如何利用多流执行来加速 GPU 程序,通过本次课程,您将学会:
PPT 下载链接 (提取码 : gf02)
NVIDIA cuBLAS 库是标准基本线性代数子程序( Basic Linear Algebra Subroutines)的 GPU 加速库. 使用cuBLAS API,您可以通过将密集型计算部署到单个 GPU 来加速应用程序,或者有效地扩展和分配到多GPU配置的服务器上,通过本次课程,您将学到
PPT 下载链接 (提取码 : k1g1)
在这门课中,您将学会如何从头开始配置一台 GPU AI 服务器,我们会结合硬件系统和软件系统介绍完整的解决方案。内容包括:
PPT 下载链接 (提取码 : krf5)
受众目标:针对有图像处理和机器视觉知识背景的人员
时长: 1.5 小时
PPT 下载链接 (提取码 : 2abe)
此课程将会介绍如何利用 TensorRT 加速 YOLO 目标检测,课程将会着重介绍编程方法。本次课程还会涉及到 TensorRT 中数据类型,流处理,多精度推理等细节的展示
受众目标:对于 TensorRT 有一定基础的开发人员
PPT 下载链接 (提取码 : 8x5w)
本次在课程针对有模型训练知识背景的技术人员,将会介绍 TensorRT 6.0 的最新特性,以及如何利用CUDA和cuDNN创建新的组件。
PPT 下载链接 (提取码 : 0taa)
本次在课程针对有模型训练知识背景的技术人员,将会介绍 TensorRT的最新特性,以及 Deepstream 的使用方法。
PPT 下载链接 (提取码 : c1id)
将介绍如何针对不同的传感器类型(如雷达,激光雷达和摄像头)安装及启用传感器插件。这些插件使开发人员可以将新的传感器加到DriveWorks 传感器抽象层(SAL)中,以实现与传感器交流所需的传输和协议层。了解更多如何将新的传感器集成到 DriveWorks 软件开发套件(SDK)中以及关于 NVIDIA DRIVE AGX 的更多信息。
介绍了 CUDA 并行计算编程模型和 TensorRT 高性能深度学习推理平台。.基于 CUDA 构建的 TensorRT 使开发人员能够导入、校准、生成和部署优化网络。 以及如何使用插件界面通过 TensorRT 运行自定义层,为了最快地实现自定义层,使用相同的 GPU 构建运行优化核心的 CUDA 程序。以及如何通过示例应用程序将 CUDA 核心程序作为 TensorRT 插件的一部分,以用于 DNN 模型的优化。
自动驾驶汽车依靠摄像头来“看见”周围世界。要实现没有人类驾驶员参与的安全驾驶,自动驾驶汽车必须能够快速准确地处理来自摄像头的图像数据。NVIDIA DriveWorks 软件开发套件(SDK)提供了一个高效模块化的功能库,可用于开发摄像头图像处理软件。NVIDIA DriveWorks强大的图像数据处理能力,为开发者在开发更高级的自动驾驶软件时提供了坚实的基础。 将会讲解在 NVIDIA DriveWorks 软件开发套件(SDK)上开发摄像头图像处理软件的步骤。借助该平台,开发者们可以无缝添加一系列高性能的功能。本次研讨会的内容还包括 DriveWorks 图像基础,低阶计算机视觉模块,特征追踪以及深度神经网络(DNN)示例。
本次课程将会就探讨自动驾驶机器人 Jetbot 的软硬件搭建,功能实现以及深度学习部署和优化的方案。在这次活动中,将会从多个角度全面地介绍如何快速的搭建一个完整的智能小车方案
受众目标:对于 Python 有一定基础的开发人员
PPT 下载链接 (提取码 : k2g9)
PPT 下载链接 (提取码 : nz5p)
NVIDIA Transfer Learning Toolkit 是一个基于 python 的工具包,它使开发人员能够使用 NVIDIA 预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率
受众目标:针对人工智能和深度学习的开发者
PPT 下载链接 (提取码 : gqh3)
A Style-Based Generator Architecture for Generative Adversarial Networks 是 NVIDIA 在 2018 年发布的一个新的生成对抗网络方法。StyleGAN是一步一步地生成人工的图像,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视觉特征,从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色),而不会影响其它的级别。此课程将会介绍 Style-Gan 的基本框架和原理,并具体介绍模型的训练,以及训练好模型的应用,包括:
受众目标:针对有模型训练知识背景的技术人员
PPT 下载链接 (提取码 : pms7)
本视频介绍了如何在 NVIDIA Jetson NANO 上快速的搭建部署一个目标检测任务,并调用安装好的工具包利用十行代码完成目标检测
受众目标:有深度学习经验的开发者
时长: 40 分钟
受今年新冠疫情的影响,快速的口罩检测成为了目前一个比较火热的话题。在不同的场景下,快速训练并部署一个属于自己的口罩检测模型成为了搭建高效防疫机制的关键。 本次课程将介绍如何利用 NVIDIA Transfer Learning Toolkit,在 Python 的环境下快速训练并部署一个口罩监测模型。并会详细介绍,如何利用该工具,对模型进行剪枝,评估并优化。Transfer Learning Toolkit 内包含了 95 个预训练模型,6 个常用网络模型,用户不用从头开始训练,极大地减轻了准备样本的工作量,让开发者专注于模型的精度提升。 Transfer Learning Toolkit 是一个基于 Python 的工具包,它使开发人员能够利用 NVIDIA 预先训练的模型,并为开发人员提供一系列的工具,使流行的网络架构适应他们自己的数据,并且能够训练、调整、修剪和导出模型以进行部署。它还拥有简单的接口和抽象 API,提高了深度学习训练工作流的效率。 本次在线研讨会主要面向有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:
下载 PPT
CUDA 编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。Numba 是一个支持 Python CUDA 的编译器,它为 Python 开发人员提供了一个简单的进入 GPU 加速计算的入口,用最简单的方式加速您的应用。 本次在线研讨会主要针对有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:
NVIDIA Transfer Learning Toolkit是一个基于python的工具包,它使开发人员能够使用NVIDIA预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出模型以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率。 本次在线研讨会主要针对人工智能和深度学习的开发者,介绍如何快速部署一个Jetbot智能小车,并将NVIDIA 迁移式学习工具包构建的引擎部署在Jetbot上。 通过本次在线研讨会,您可以获得以下内容:
NVIDIA TensorRT™ 是一个高性能深度学习推理平台。它包含深度学习推理优化器和提供低延迟和高通量的深度学习推理应用程序的运行时。使用 TensorRT,您可以在主流框架下优化神经网络训练模型, 在保证高精度输出结果的同时校准低精度数据类型,并最终部署到超大型数据中心,嵌入式,或者汽车产品平台。 本次在线研讨会针对有模型训练知识背景的技术人员,将会介绍 TensorRT 7.0 的最新特性,以及如何利用 CUDA 和 cuDNN 创建新的组件。
通过本次在线研讨会,您可以获得以下内容:
下载PPT
此在线研讨会主要针对人工智能和深度学习的开发者,通过本次在线研讨会,您可以获得以下内容:
NVIDIA Transfer Learning Toolkit是一个基于python的工具包,它使开发人员能够使用NVIDIA预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出模型以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率。
本次在线研讨会主要针对人工智能和深度学习的开发者,介绍最新的TensorRT 7.0的特性,并利用NVIDIA 迁移式学习工具包构建的引擎,加速目标检测任务。通过本次在线研讨会,您可以获得以下内容:
最近一、两年来,transformer layer成为NLP里面非常热门的一个深度学习网络架构。在FasterTransformer 1.0中,提供了以BERT transformer layer为模版、经过高度优化之后的 transformer layer,让用户能够降低使用transformer编码 (encode) 的时延。 然而,在编码-解码 (encoder-decoder) 的流程当中,占据大部份时间的是解码。因此,FasterTransformer 2.0提供针对解码器进行高度优化的transformer layer。同时,还提供了优化过后的整个翻译流程,满足想要在翻译场景中大幅降低时延的用户们。通过本次的在线研讨会,您可以获得以下的内容:
(这一个Subject下没有下载PPT,不用添加这一入口即可)
2020年5月14日时,NVIDIA 发表了最新的 GPU 架构: 安培,以及基于安培架构的最新的 GPU: A100。安培提供了许多新的特性,MIG 是其中一项非常重要的新特性。MIG,全名是 Multi-Instance GPU,最多可以把 A100 GPU 切成七个 GPU 实例。每一个 GPU 实例都有各自的 SMs 和内存系统。因此,MIG 能够保证各个使用者的工作的时延和吞吐量是可预期的、提供可预期的服务品质,并且提高 GPU 的使用率。
对于云端服务的供应商,有几点非常重要的需求,包括服务品质的保证,基于安全考量而将使用者进行分离,以及尽可能的提高 GPU 的使用率。而 MIG 能够在不需要额外的工作下,满足上述的需求。透过硬件上分离 SM 和内存系统,MIG 能够保证服务的品质以及使用者的安全性。而透过将 GPU 切分成多个实例,能够显著提升 GPU 的使用率。
在这次的在线研讨会中,您可以获得以下的内容:
2020 年 5 月 14 日, NVIDIA 发布了最新的 GPU 架构:安培,以及基于安培架构最新的 GPU A100。在安培架构中新增了功能强大的第三代 Tensor Core 单元。
相较于 V100, A100 上搭载的第三代 Tensor Core 增加了对 DL 和 HPC 数据类型的全面支持,提高了各精度的运算吞吐能力,同时新增稀疏运算特性,进一步实现了吞吐性能翻倍。
第三代 Tensor Core 新特性如下:
受新冠疫情影响,各种公共场所都会限制进入人数,对人流进行统计和控制。快速部署一个行人统计系统,成为一个非常火热的需求。
本次课程将介绍如何利用 NVIDIA Transfer Learning Toolkit,在 Python 的环境下快速训练并部署一个行人检测模型。并会详细介绍如何利用该工具,对模型进行剪枝,评估并优化。
Transfer Learning Toolkit 内包含了95个预训练模型,6个常用网络模型,用户不用从头开始训练,极大地减轻了准备样本的工作量,让开发者专注于模型的精度提升。
Transfer Learning Toolkit 是一个基于 Python 的工具包,它使开发人员能够利用 NVIDIA 预先训练的模型,并为开发人员提供一系列的工具,使流行的网络架构适应他们自己的数据,并且能够训练、调整、修剪和导出模型以进行部署。它还拥有简单的接口和抽象 API,提高了深度学习训练工作流的效率。
本次在线研讨会主要面向有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:
近年来,基于深度学习的视频车辆目标检测在智慧城市,自动驾驶等领域中得到了越来越广泛的应用。而如何快速的部署一个基于深度学习的高效车辆检测模块,成为了不少AI工程师的一个小向往。
本次课程将会介绍如何利用高效的 NVIDIA TensorRT 和 CUDA 快速部署一个基于 Python 的车辆目标检测模块,会着重介绍 TensorRT 7 的高效执行机制和最新特性以及在 Python 环境下的开发流程。
DeepStream 是一个用于构建人工智能应用的流媒体分析工具包。它采用流式数据作为输入,并使用人工智能和计算机视觉理解环境,将像素转换为数据。DeepStream SDK 可用于构建视频分析解决方案,用于智能城市中的交通和行人理解、医院中的健康和安全监控、零售中的自助检验和分析、制造厂中的组件缺陷检测等。