Data Parallelism: How to Train Deep Learning Models on Multiple GPUs (DPHTDLM) – Details

Detaillierter Kursinhalt

Einführung

  • Treffen Sie den Ausbilder.
  • Erstellen Sie ein Konto unter courses.nvidia.com/join

Stochastischer Gradientenabstieg und die Auswirkungen der Chargengröße

  • Lernen Sie die Bedeutung des stochastischen Gradientenabstiegs beim Training auf mehreren GPUs kennen
  • Verstehen Sie die Probleme der sequentiellen Single-Thread-Datenverarbeitung und die Theorie der Beschleunigung von Anwendungen durch parallele Verarbeitung.
  • Verstehen der Verlustfunktion, des Gradientenabstiegs und des stochastischen Gradientenabstiegs (SGD).
  • Verstehen der Auswirkungen der Stapelgröße auf die Genauigkeit und die Trainingszeit im Hinblick auf die Verwendung auf Multi-GPU-Systemen.

Training auf mehreren GPUs mit PyTorch Distributed Data Parallel (DDP)

  • Lernen Sie, wie man mit PyTorch Distributed Data Parallel ein GPU-Training auf mehrere GPUs überträgt.
  • Verstehen, wie DDP das Training zwischen mehreren GPUs koordiniert.
  • Refaktorieren Sie Trainingsprogramme für eine einzelne GPU, damit sie mit DDP auf mehreren GPUs laufen.

Beibehaltung der Modellgenauigkeit bei Skalierung auf mehrere GPUs

  • Verstehen und Anwenden wichtiger algorithmischer Überlegungen, um die Genauigkeit beim Training auf mehreren GPUs zu erhalten
  • Verstehen, warum die Genauigkeit bei der Parallelisierung des Trainings auf mehreren GPUs abnehmen kann.
  • Erlernen und Verstehen von Techniken zur Aufrechterhaltung der Genauigkeit bei der Skalierung des Trainings auf mehrere GPUs.

Workshop Bewertung

  • Nutzen Sie, was Sie während des Workshops gelernt haben: füllen Sie die Workshop-Bewertung aus, um ein Kompetenzzertifikat zu erhalten

Abschlussbericht

  • Besprechung der wichtigsten Erkenntnisse und abschließende Fragen.
  • Nehmen Sie an der Workshop-Umfrage teil.