Accelerating CUDA C++ Applications with Multiple GPUs (ACCAMG) – Details

Detaillierter Kursinhalt

Einführung

  • Treffen Sie den Ausbilder.
  • Erstellen Sie ein Konto unter courses.nvidia.com/join

JupyterLab verwenden

  • Machen Sie sich mit Ihrer GPU-beschleunigten interaktiven JupyterLab-Umgebung vertraut.

Anwendungsübersicht

  • Orientieren Sie sich an einer einzelnen GPU CUDA C++ Anwendung, die den Ausgangspunkt für den Kurs bildet.
  • Beobachten Sie die aktuelle Leistung der Single-GPU-CUDA-C++-Anwendung mit Nsight Systems.

Einführung in CUDA Streams

  • Lernen Sie die Regeln, die das Verhalten von gleichzeitigen CUDA Streams bestimmen.
  • Verwenden Sie mehrere CUDA Streams, um gleichzeitige Host-to-Device- und Device-to-Host-Speicherübertragungen durchzuführen.
  • Nutzen Sie mehrere CUDA Streams zum Starten von GPU-Kernels.
  • Beobachten Sie mehrere Streams in der Zeitleistenansicht von Nsight Systems Visual Profiler.

Kopieren/Rechenüberschneidung mit CUDA Streams

  • Lernen Sie die wichtigsten Konzepte für eine effektive Überlappung von Kopieren und Berechnen kennen.
  • Erkundung robuster Indizierungsstrategien für die flexible Nutzung von Kopier-/Rechenüberschneidungen in Anwendungen.
  • Refaktorieren Sie die Single-GPU CUDA C++ Anwendung, um eine Überlappung von Kopieren und Berechnen zu erreichen.
  • Siehe Überlappung von Kopieren und Berechnen in der Zeitleiste des Nsight Systems Visual Profilers.

Mehrere GPUs mit CUDA C++

  • Lernen Sie die wichtigsten Konzepte für die effektive Nutzung mehrerer GPUs auf einem einzigen Knoten mit CUDA C++.
  • Erforschen Sie robuste Indizierungsstrategien für die flexible Nutzung mehrerer GPUs in Anwendungen.
  • Refaktorieren Sie die Single-GPU CUDA C++ Anwendung, um mehrere GPUs zu nutzen.
  • Sehen Sie sich die Nutzung mehrerer GPUs in der Zeitleiste von Nsight Systems Visual Profiler an.

Kopieren/Rechenüberlappung mit mehreren GPUs

  • Lernen Sie die wichtigsten Konzepte für die effektive Durchführung von Kopier-/Rechenüberschneidungen auf mehreren GPUs kennen.
  • Erforschung robuster Indizierungsstrategien für die flexible Nutzung von Kopier-/Rechenüberlappungen auf mehreren GPUs.
  • Refaktorierung der Single-GPU CUDA C++-Anwendung zur Durchführung von Kopier-/Rechenüberlappungen auf mehreren GPUs.
  • Beobachten Sie die Leistungsvorteile bei der Überlappung von Kopieren und Berechnen auf mehreren GPUs.
  • Sehen Sie die Überlappung von Kopieren und Berechnen auf mehreren GPUs in der Zeitleiste des visuellen Profiler von Nsight Systems.

Bewertung des Kurses

Abschlussbericht

  • Überprüfung der wichtigsten Erkenntnisse.
  • Lernen Sie, wie Sie Ihre eigene Schulungsumgebung aus dem DLI-Basisumgebungscontainer aufbauen.
  • Füllen Sie die Workshop-Umfrage aus.