Voraussetzungen
Die Teilnehmer sollten über grundlegende Kenntnisse der Datenanalyse und grundlegende Kenntnisse der SQL Server-Tools verfügen.
Kursziele
Sprache, Statistik, Data Mining und Machine Learning mit R und dessen Verwendung mit SQL Server und dem Microsoft BI Stack
Als Open Source-Entwicklung ist R die weltweit beliebteste Analyse- und Programmiersprache für Data Scientists. Die Anzahl an Bibliotheken mit neuen Analysefunktionen ist enorm und wächst stetig. Es gibt jedoch auch einige Nachteile. R ist eine Programmiersprache, daher müssen Sie sie lernen, um sie zu benutzen. Open Source bedeutet auch weniger Kontrolle über den Code. Darüber hinaus ist die freie R-Engine nicht skalierbar.
Microsoft hat Support für R-Code in SQL Server 2016 hinzugefügt und unterstützt ihn weiterhin in späteren Versionen. Zur Ausführung der R-Skripts wird eine parallelisierte, stark skalierbare Execution-Engine verwendet. Allerdings ist in diesen beiden Umgebungen nicht jede Bibliothek zulässig.
Die Teilnehmer dieses Kurses lernen von Grund auf mit R zu programmieren. Eine Einführung in grundlegenden R-Code erfolgt mit der kostenlosen R-Engine und der R-Studio-IDE. Im Detail wird ein Life-Cycle eines Data-Science-Projekts erklärt. Die Teilnehmer lernen, wie man sich einen Überblick über die Daten verschafft und die am meisten ermüdende Aufgabe in einem Projekt erledigt - die Datenaufbereitung. Nach der Datenübersicht und -aufbereitung beginnt der analytische Teil mit Statistiken, um die Assoziationen zwischen Variablenpaaren zu analysieren. Anschließend werden fortgeschrittene Methoden zur Erforschung linearer Abhängigkeiten vorgestellt.
Zu viele Variablen in einem Modell können ein eigenes Problem darstellen. In diesem Kurs wird die Funktionsauswahl anhand der Grundlagen von Matrixberechnungen beschrieben. Anschließend werden fortgeschrittene Data-Mining- und Machine-Learning-Analysen durchgeführt, einschließlich überwachtem und unüberwachten Lernen. Der Kurs stellt auch die aktuell modernen Themen vor, einschließlich Prognosen, Text-Mining und Verstärkungslernen. Schließlich lernen die Teilnehmer auch, wie der R-Code in SQL Server, Azure ML und Power BI verwendet wird.