【Udemy中英字幕】CUDA Parallel Programming on NVIDIA GPUs (HW and SW)

NVIDIA GPU 上的 CUDA 并行编程（硬件和软件）

高性能计算的性能优化与分析

讲师：Hamdy Sultan

双语IT资源独家Udemy付费课程，独家中英文字幕，配套资料齐全！

用不到1/10的价格，即可享受同样的高品质课程，且可以完全拥有，随时随地都可以任意观看和分享。

您将学到什么

全面了解 GPU 与 CPU 架构
了解图形处理单元 (GPU) 的历史直至最新产品
了解GPU内部结构
了解不同类型的记忆以及它们如何影响表现
了解 GPU 内部组件的最新技术
了解 GPU 上的 CUDA 编程基础知识
开始在 Windows 和 Linux 上使用 CUDA 进行 GPU 编程
了解最有效的并行化方法
分析和性能调整
利用共享内存

探索相关主题

通用数据架构
其他 IT 和软件
信息技术与软件

要求

C 和 C++ 基础知识
Linux 和 Windows 基础知识
计算机体系结构基础

描述

本综合课程专为希望深入了解 CUDA 编程和 NVIDIA GPU 架构的任何人而设计。本课程从 GPU 硬件的基础知识开始，带您了解 NVIDIA 架构的演变、其主要性能特征以及 CUDA 的计算能力。通过实际的编程示例和分步指导，学生将深入了解 GPU 计算、CUDA 编程和性能优化。无论您是经验丰富的开发人员还是并行计算新手，本课程都提供充分利用 GPU 编程潜力所需的知识和技能。

以下是您将从本 CUDA 编程课程中获得的知识的详细摘要：

全面了解 GPU 与 CPU 架构：学生将了解 GPU 和 CPU 之间的根本区别，深入了解 GPU 如何设计用于并行处理任务。
深入了解 NVIDIA 的 GPU 架构：本课程涵盖 NVIDIA GPU 架构的演变，包括 Fermi、Pascal、Volta、Ampere 和 Hopper，并教授如何根据关键性能参数比较不同代。
动手 CUDA 安装：学生将学习如何在各种操作系统（包括 Windows、Linux 和使用 WSL）上安装 CUDA，同时探索 CUDA 工具包附带的基本功能。
CUDA 编程概念介绍：通过实际示例，学生将了解核心 CUDA 编程原则，包括线程和块管理，以及如何开发向量加法等并行应用程序。
分析和性能调整：本课程将指导学生使用 NVIDIA 强大的分析工具（如 Nsight Compute 和 nvprof）来测量 GPU 性能并通过解决占用和延迟隐藏等问题来优化代码。
掌握矩阵运算的二维索引：学生将探索高效的矩阵计算的二维索引技术，学习优化内存访问模式并提高性能。
性能优化技术：他们将通过真实世界的例子获得优化 GPU 程序的技能，包括处理非 2 的幂数据大小和微调操作以实现最高效率。
利用共享内存：本课程深入探讨共享内存如何通过改善数据局部性和最小化全局内存访问来提高 CUDA 应用程序的性能。
了解 Warp Divergence：学生将了解 Warp Divergence 及其对性能的影响，以及如何最小化 Warp Divergence 并确保并行线程顺利执行的策略。
分析和调试的实际应用：该课程强调实际用例，学生将应用调试技术、错误检查 API 和高级分析方法来微调他们的 CUDA 程序以适应实际应用。