Introduction to Data Engineering on Google Cloud (IDEG) – Details

Detaillierter Kursinhalt

Modul 1 - Data-Engineering-Aufgaben und -Komponenten

Themen:

  • Die Rolle des Dateningenieurs
  • Datenquellen versus Datensenken
  • Datenformate
  • Optionen für Speicherlösungen in der Google Cloud
  • Optionen für die Verwaltung von Metadaten in der Google Cloud
  • Gemeinsame Nutzung von Datensätzen mit Analytics Hub

Zielsetzungen:

  • Erklären Sie die Rolle eines Dateningenieurs.
  • die Unterschiede zwischen einer Datenquelle und einer Datensenke zu verstehen.
  • Erklären Sie die verschiedenen Arten von Datenformaten.
  • Erklären Sie die Optionen für Speicherlösungen in der Google Cloud.
  • Erfahren Sie mehr über die Möglichkeiten der Metadatenverwaltung in Google Cloud.
  • Verstehen Sie, wie Sie mit Analytics Hub problemlos Datensätze gemeinsam nutzen können.
  • Verstehen, wie man Daten mit der Google Cloud-Konsole oder der gcloud CLI in BigQuery lädt.

Aktivitäten:

  • Übung: Laden von Daten in BigQuery
  • Quiz

Modul 2 - Datenreplikation und -migration

Themen:

  • Replikations- und Migrationsarchitektur
  • Das gcloud-Befehlszeilenwerkzeug
  • Verschieben von Datensätzen
  • Datastream

Zielsetzungen:

  • Erklären Sie die grundlegende Datenreplikations- und Migrationsarchitektur der Google Cloud.
  • die Optionen und Anwendungsfälle für das gcloud-Befehlszeilentool zu verstehen.
  • Erläutern Sie die Funktionalität und die Anwendungsfälle des Speicherübertragungsdienstes.
  • Erläutern Sie die Funktionen und Anwendungsfälle der Transfer Appliance.
  • Verstehen Sie die Funktionen und den Einsatz von Datastream.

Aktivitäten:

  • Labor: Datastream: PostgreSQL-Replikation zu BigQuery (optional für ILT)
  • Quiz

Modul 3 - Das Pipeline-Muster zum Extrahieren und Laden von Daten

Themen:

  • Architektur extrahieren und laden
  • Das bq-Befehlszeilenwerkzeug
  • BigQuery-Datenübertragungsdienst
  • BigLake

Zielsetzungen:

  • Erläutern Sie das Diagramm der Grundlinienextraktion und -lastarchitektur.
  • die Optionen des Befehlszeilenprogramms bq verstehen.
  • Erläutern Sie die Funktionen und Anwendungsfälle für den BigQuery Data Transfer Service.
  • Erläutern Sie die Funktionalität und die Anwendungsfälle für BigLake als Nicht-Extract-Load-Muster.

Aktivitäten:

  • Labor: BigLake: Qwik Start
  • Quiz

Modul 4 - Das Pipeline-Muster zum Extrahieren, Laden und Transformieren von Daten

Themen:

  • Architektur zum Extrahieren, Laden und Umwandeln (ELT)
  • SQL-Skripterstellung und Zeitplanung mit BigQuery
  • Datenformular

Zielsetzungen:

  • Erläutern Sie das Grundschema der Extraktions-, Lade- und Transformationsarchitektur.
  • Verstehen Sie eine gängige ELT-Pipeline in der Google Cloud.
  • Erfahren Sie mehr über die SQL-Skripterstellung und die Planungsfunktionen von BigQuery.
  • Erläutern Sie die Funktionen und Anwendungsfälle von Dataform.

Aktivitäten:

  • Übung: Erstellen und Ausführen eines SQL-Workflows in Dataform
  • Quiz

Modul 5 - Das Pipeline-Muster zum Extrahieren, Transformieren und Laden von Daten

Themen:

  • Architektur des Extrahierens, Transformierens und Ladens (ETL)
  • Google Cloud GUI-Tools für ETL-Datenpipelines
  • Batch-Datenverarbeitung mit Dataproc
  • Optionen für die Verarbeitung von Streaming-Daten
  • Bigtable und Datenpipelines

Zielsetzungen:

  • Erläutern Sie das Grundschema der Extraktions-, Transformations- und Ladearchitektur.
  • Lernen Sie die GUI-Tools von Google Cloud kennen, die für ETL-Datenpipelines verwendet werden.
  • Erläutern Sie die Batch-Datenverarbeitung mit Dataproc.
  • Erfahren Sie, wie Sie Dataproc Serverless for Spark für ETL verwenden können.
  • Erläutern Sie die Möglichkeiten der Streaming-Datenverarbeitung.
  • Erklären Sie, welche Rolle Bigtable in Datenpipelines spielt.

Aktivitäten:

  • Übung: Verwenden von Dataproc Serverless for Spark zum Laden von BigQuery (optional für ILT)
  • Übung: Erstellen einer Streaming-Datenpipeline für ein Echtzeit-Dashboard mit Dataflow
  • Quiz

Modul 6 - Automation Techniques

Themen:

  • Automatisierungsmuster und Optionen für Pipelines
  • Cloud Scheduler und Arbeitsabläufe
  • Cloud-Komponist
  • Cloud Run-Funktionen
  • Eventarc

Zielsetzungen:

  • Erklären Sie die Automatisierungsmuster und -optionen, die für Pipelines verfügbar sind.
  • Erfahren Sie mehr über Cloud Scheduler und Workflows.
  • Erfahren Sie mehr über Cloud Composer.
  • Lernen Sie die Funktionen von Cloud Run kennen.
  • Erläutern Sie die Funktionalität und die Anwendungsfälle der Automatisierung von Eventarc.

Aktivitäten:

  • Übung: Verwenden von Cloud Run Functions zum Laden von BigQuery (optional für ILT)
  • Quiz