feature(notes): add final l5 notes

2026-06-11 15:59:22 +02:00
parent 353ec74ba0
commit c889e04ac6
1 changed files with 125 additions and 0 deletions
@@ -460,3 +460,128 @@ sns.boxplot(x=scores)
 - **mean** → durchschnittliche Performance.
 - **std** → **Stabilität** des Learners: wie stark hängt die Performance von der zufälligen Datenaufteilung (random_state) ab.
    - **kleine std = stabileres** Resultat der Methode.
+
+# ML OPs (Foliensatz 15)
+
+## Hauptaufgaben
+
+1. Entwicklung der Modelle
+2. Vorbereitung für die Produktion
+3. Bereitstellen in der Produktion
+4. Überwachungs- und Rückkopplungsschleife
+5. Modellsteuerung
+
+## Modelle Entwickeln
+
+- Ein ML-Modell ist eine Projektion der Realität
+- Partielle und annähernde Darstellung einer realen Sache oder Prozesses
+- ML-Modelle reduzieren sich nach dem Training auf eine mathematische Formel
+    - liefert bei Eingabe bestimmter Parameter ein Ergebnis
+- ein ML-Modell ist
+    - Die Menge der Parameter die zum Wiederaufbau und zur Anwendung der Formel erforderlich sind
+    - Zustandslos und determisnistisch
+
+### Erforderliche Komponenten
+
+- Trainingsdaten
+    - Datensatz fürs Modelltraining
+- Leistungskennzahl
+    - Was versucht das Modell zu optimieren?
+- ML-Algorithmus
+    - Priorität auf Leistung, Stabilität, Interpretierbarkeit und Rechenkosten
+- Hyperparameter
+    - Konfigurationen für die ML-Algorithmen, quasi das Feintuning
+- Auswertungsdaten
+    - Unterscheided sich vom Trainingsdatensatz und wird verwendet um zu bewerten
+
+### MLOps Überlegungen nach Alorithmustyp
+
+> Wichtig ist sich den Limitationen aller Algorithmen bewusst zu sein
+
+- Linear
+    - Regression (linear und logistisch)
+        - Tendiert zu Overfitting!
+- Baumbasiert
+    - Entscheidungsbaum
+        - kann instabil sein, kleine Anpassungen führen zu grossen Veränderungen
+    - Random Forest
+        - vorhersagen können schwer verständlich sein, und sind langsam
+    - Gradientenboosting
+        - auch schwer verständlich, sensitiv auf kleine Änderungen im Modell
+- Tiefgründiges lernen
+    - Neuronale Netzwerke
+        - nahezu unmöglich zu versthen, training extrem langsam
+
+### Versionverwaltung
+
+- Unerlässlich, besonders für Audits
+    - Es muss auch später klar sein wann welches Modell wo im Einsatz war
+- Modelle müssen reproduzierbar sein!
+    - Daher muss klar nachvollziehbar sein wie ein Modell zu stande kam
+    - Ergebnisse
+    - Implementierung
+    - Umgebung
+
+## Vorbereitung für die Produktion
+
+### Laufzeitumgebung
+
+- Modell Pipeline
+    - Werkzeuge müssen während der Modellentwicklung eingerichtet werden
+    - Reproduzierbarkeit und Versionskontrolle beachten!
+
+### Modellrisikobewertung
+
+- Was wenn sich das Modell auf die denkbar schlechteste Weise verhält?
+    - Worst Case Szenario abbilden
+- Was wenn es dem Benutzer gelingt die Trainingsdaten oder die interne Logik zu extrahieren?
+- Risikoabschätzung, im Wesentlichen folgendes
+    - Fehler, Irrtümer beim Entwurf oder Training
+    - Fehler im Laufzeit-Framework
+    - Geringe Qualität der Trainingsdaten
+    - Unterschied Trainingsdaten und Produktionsdaten (zu gross)
+    - Missbrauch des Modells
+    - Gegnerische Angriffe
+    - Rechtliches Risiko
+
+## Bereitstellunge in der Produktion
+
+### CI/CD Pipelines
+
+1. Modell erstellen
+    - Artefakte erstellen
+    - ins Artifactory pushen
+    - Überprüfungen (Rechtliches etc.)
+2. Bereitstellung in Testumgebung
+    - Tests durchführen, ML Leistung und Rechenleistung validieren
+    - Manuelle Validierung
+3. Bereitstellung in Produktion
+    - Modell vollständig implementieren
+
+### Überwachungs und Rückkopplungsschleife
+
+- Wie oft sollten Modelle neu trainiert werden?
+    - kommt aufs Modell drauf an
+    - Entscheidungsgrundlagen
+        - Bereich
+            - In Cybersicherheit und Echtzeitverarbeitung regelmässig aktualisieren
+            - Spracherkennung bspw. stabiler
+        - Kosten
+            - Lohnt es sich?
+        - Leistungsfähigkeit des Modells
+
+### Modellverschlechterung
+
+- Sobald das Modell in Produktion ist gibt es zwei wichtige Kennzahlen
+    - Bewertung der Realität
+        - man wartet einfach bis was passiert
+        - berechnung der Leistung des Modells auf basis tatsächlicher Werte
+        - wenn Differenz den Schwellenwert überschreitet, muss das Modell neu trainiert werden
+    - Eingangsdrifterkennung
+        - Eine Abweichung der Datenverteilung zwischen Trainings- und Testphase
+        - Problem: Leistung des Modells in Produktion nicht gleich wie in Training
+        - Mögliche Ursachen:
+            - Verzerrung durch Stichprobenauswahl
+            - Saisonalität
+            - Nicht-Stationäre Umgebgung
+        - Erkennung: Mit statistischen Tests