ACCAMG Details - Accelerating CUDA C++ Applications with Multiple GPUs

Accelerating CUDA C++ Applications with Multiple GPUs (ACCAMG) – Details

Detaillierter Kursinhalt

Einführung

JupyterLab verwenden

Machen Sie sich mit Ihrer GPU-beschleunigten interaktiven JupyterLab-Umgebung vertraut.

Anwendungsübersicht

Orientieren Sie sich an einer einzelnen GPU CUDA C++ Anwendung, die den Ausgangspunkt für den Kurs bildet.
Beobachten Sie die aktuelle Leistung der Single-GPU-CUDA-C++-Anwendung mit Nsight Systems.

Einführung in CUDA Streams

Lernen Sie die Regeln, die das Verhalten von gleichzeitigen CUDA Streams bestimmen.
Verwenden Sie mehrere CUDA Streams, um gleichzeitige Host-to-Device- und Device-to-Host-Speicherübertragungen durchzuführen.
Nutzen Sie mehrere CUDA Streams zum Starten von GPU-Kernels.
Beobachten Sie mehrere Streams in der Zeitleistenansicht von Nsight Systems Visual Profiler.

Kopieren/Rechenüberschneidung mit CUDA Streams

Lernen Sie die wichtigsten Konzepte für eine effektive Überlappung von Kopieren und Berechnen kennen.
Erkundung robuster Indizierungsstrategien für die flexible Nutzung von Kopier-/Rechenüberschneidungen in Anwendungen.
Refaktorieren Sie die Single-GPU CUDA C++ Anwendung, um eine Überlappung von Kopieren und Berechnen zu erreichen.
Siehe Überlappung von Kopieren und Berechnen in der Zeitleiste des Nsight Systems Visual Profilers.

Mehrere GPUs mit CUDA C++

Lernen Sie die wichtigsten Konzepte für die effektive Nutzung mehrerer GPUs auf einem einzigen Knoten mit CUDA C++.
Erforschen Sie robuste Indizierungsstrategien für die flexible Nutzung mehrerer GPUs in Anwendungen.
Refaktorieren Sie die Single-GPU CUDA C++ Anwendung, um mehrere GPUs zu nutzen.
Sehen Sie sich die Nutzung mehrerer GPUs in der Zeitleiste von Nsight Systems Visual Profiler an.

Kopieren/Rechenüberlappung mit mehreren GPUs

Lernen Sie die wichtigsten Konzepte für die effektive Durchführung von Kopier-/Rechenüberschneidungen auf mehreren GPUs kennen.
Erforschung robuster Indizierungsstrategien für die flexible Nutzung von Kopier-/Rechenüberlappungen auf mehreren GPUs.
Refaktorierung der Single-GPU CUDA C++-Anwendung zur Durchführung von Kopier-/Rechenüberlappungen auf mehreren GPUs.
Beobachten Sie die Leistungsvorteile bei der Überlappung von Kopieren und Berechnen auf mehreren GPUs.
Sehen Sie die Überlappung von Kopieren und Berechnen auf mehreren GPUs in der Zeitleiste des visuellen Profiler von Nsight Systems.

Bewertung des Kurses

Abschlussbericht

Überprüfung der wichtigsten Erkenntnisse.
Lernen Sie, wie Sie Ihre eigene Schulungsumgebung aus dem DLI-Basisumgebungscontainer aufbauen.
Füllen Sie die Workshop-Umfrage aus.