Als Lernhilfe kannst du dir den Beitrag Azure AI-900 Zusammenfassung durchlesen. Dieser Beitrag setzt sich aus vertiefenden Fragen zusammen und ist ein erweiterter Katalog von nützlichen Informationen.
Lösungshinweise für Examen
- Chatbots sorgen für eine reduzierte Arbeitsbelastung für Kundendienstmitarbeiter.
- Für das Trainieren und Testen eines Modelles sollten die Daten zufällig gesplittet werden. Jede Datensatz ist eine Zeile, sodass die Zeilen gesplittet werden sollen.
- Für die Klassifikationsmatrix gilt immer [actual 0=false,1=true] [predicted 0=negatives, 1=positives]. True positive sind somit die Übereinstimmung von Vorhergesagt und Aktuell. False Negatives wäre dann 0 vorhergesagt, allerdings 1 aktuell.
- Das Prinzip der Zuverlässigkeit und Sicherheit sorgt für einen reibungslosen Ablauf auch bei unerwarteten oder fehlenden Werten.
- Während das Service Textanalyse (Natural Language) zwar eine Entitätserkennung hat (Keyphrasen), ist das Service Form Recognizer (Computer Vision) dafür trainiert, Texte zu extrahieren, Key/Value Werte zu identifizieren und Tabellendaten automatisiert zu extrahieren – etwa von Rechnungen oder gescannten Dokumenten. Außerdem können mit dem Form Recognition auch Zwischensummen und Summen aus Rechnungen extrahiert werden. OCR extrahiert alles Phrasen, nicht nur Key Phrasen.
- Für ein Echtzeit Modell (Inferenz) muss eine Pipeline in real-time über ein Azure Kubernet Service Cluster bereitgestellt werden. Für die Entwicklung reicht auch eine Azure Container Instance.
- Regression: Vorhersage eines numerischen Ziels, Feature = x (bekannt), Label = y (was herauskommen soll)
- Klassifikation: Anhand von Daten wird die Kategorie, der Type oder die Klasse bestimmt
- Cluster: Methode zum Gruppieren von Datenpunkten in ähnliche Cluster (Segmentierung)
- Azure Machine Learning designer: Grafische Oberfläche (Drag & Drop von Modulen (Algorithmus um Daten zu verändern, z.B. normalisieren, bereinigen, auswählen) und Datasets (Daten)) auf einem Canvas zum Erstellen, Testen und Bereitstellen , Piepline Draft ist möglich, auch Scripte in Python oder R sind möglich.
- Modellbewertungsmodul (Model Evaluation) bewertet die Klassifikationsmatrix.
- Feature Engineering nutzt das Wissen über die Daten, um Features zu erstellen, mit denen maschinelle Algorithmen besser lernen können. Aus Rohdaten werden neue Features erstellt, um die Vorhersagekraft zu erhöhen z.B. ein Datum aufsplitten. AutoML ist ein Prozess den besten Algorithmus für die Daten auszuwählen.
- Feature Selection (Merkmalauswahl): Prozess der Auswahl der wichtigsten Teilmenge von Merkmalen, um die Dimensionalität zu verringern
- Azure Bot kann LUIS, QnA und Power Virtual Agents integrieren.
- Es gibt die Workspace Editions Basic und Enterprise. Für einen Workspace wird der Name, die Subscription, die Ressource Gruppe, der Standort (Location) und die Workspace Edition benötigt. Das Interface (GUI) ist nur in der Enterprise Edition enthalten. Zusätzlich wird Azure Storage, Azure Key Valut und Azure Application Insights hinzugefügt.
- Computer Ressourcen um Datenmodelle zu trainieren sind Compute Instances (Workstations, benötigt wird der Name, der Maschinen Typ und die Größe), Compute Clusters (Virtuelle Maschinen, benötigt wird der Computer Name, die Maschinen Größe, die Priorität etwa dediziert, die Minimum und maximum Node Nummer, Leerlaufzeit), Inference Clusters (Bereitstellung) und Attached Compute (existierende Azure Komponenten). Durch 0 setzen der Minimum Nodes wird der PC erst gestartet wenn er benötigt wird.
- Datensets werden über Assets > Datasets hinzugefügt. Dies ist möglich von Webressourcen, lokalen Ressourcen, Datenbanken (Datastore) und offenen Datenquellen / Datensets. Nach der Erstellung kann mit Explore die Daten angesehen werden.
- Modellerstellung: Import Rohdaten, Auswahl der Spalten, Säubern von fehlenden Werten, Daten normalisieren, Daten Splitten, Modell trainieren (z.B. mit Regression, k-Means Clustering), Modell scoren oder Assign Data to Cluster.
- MAE (Mean Absolute Error): Durchschnittliche Differenz zwischen vorhergesagten und wahren Werten, je niedriger, desto besser ist das Modell
- RMSE (Root Mean Squared Error): Mittlere Differenz der vorhergesagten und wahren Werte wird quadriert, anschließend die Quadratwurzel berechnet, ein größerer Unterschied zeigt eine größere Varianz
- RSE (Relative Squared Error): Relative Metrik zwischen 0 und 1, basierend auf dem Quadrat der Unterschiede zwischen vorhergesagten und wahren Werten, je näher an 0 umso besser ist das Modell
- RAE (Relative Absolute Error): Relative Metrik zwischen 0 und 1, basierend auf den absoluten Werten zwischen vorhergesagten und wahren Werten, nutzbar für Vergleiche, wenn die Beschriftungen in verschiedenen Einheiten sind
- R2 (Determinationskoeffizient): Wie viel der Varianz zwischen vorhergesagten und wahren Werten durch das Modell erklärt wird, je näher an 1, umso besser
- F1 Metrik kombiniert Präzision und Recall.
- Selective Translation wird genützt, wenn gewisser Content nicht übersetzt werden soll (z.B. Firmennamen)
- Typen von Entitäten sind: Maschinell gelernt, Liste (Geräte), RegEx (Telefonnummer) und Pattern.any (komplexe Entitäten)
Weitere Ressourcen zu Cloud Computing
Weitere Beiträge zu Cloud Computing findest du auf der Übersichtsseite. Alternativ kannst du dir auch weitere Ressourcen zu Microsoft Azure anschauen.