feature(notes): add final l5 notes

2026-06-11 15:59:22 +02:00
parent 353ec74ba0
commit c889e04ac6
1 changed files with 125 additions and 0 deletions
@@ -460,3 +460,128 @@ sns.boxplot(x=scores)
 - **mean** → durchschnittliche Performance.
 - **std** → **Stabilität** des Learners: wie stark hängt die Performance von der zufälligen Datenaufteilung (random_state) ab.
    - **kleine std = stabileres** Resultat der Methode.
 # ML OPs (Foliensatz 15)
 ## Hauptaufgaben
 1. Entwicklung der Modelle
 2. Vorbereitung für die Produktion
 3. Bereitstellen in der Produktion
 4. Überwachungs- und Rückkopplungsschleife
 5. Modellsteuerung
 ## Modelle Entwickeln
 - Ein ML-Modell ist eine Projektion der Realität
 - Partielle und annähernde Darstellung einer realen Sache oder Prozesses
 - ML-Modelle reduzieren sich nach dem Training auf eine mathematische Formel
    - liefert bei Eingabe bestimmter Parameter ein Ergebnis
 - ein ML-Modell ist
    - Die Menge der Parameter die zum Wiederaufbau und zur Anwendung der Formel erforderlich sind
    - Zustandslos und determisnistisch
 ### Erforderliche Komponenten
 - Trainingsdaten
    - Datensatz fürs Modelltraining
 - Leistungskennzahl
    - Was versucht das Modell zu optimieren?
 - ML-Algorithmus
    - Priorität auf Leistung, Stabilität, Interpretierbarkeit und Rechenkosten
 - Hyperparameter
    - Konfigurationen für die ML-Algorithmen, quasi das Feintuning
 - Auswertungsdaten
    - Unterscheided sich vom Trainingsdatensatz und wird verwendet um zu bewerten
 ### MLOps Überlegungen nach Alorithmustyp
 > Wichtig ist sich den Limitationen aller Algorithmen bewusst zu sein
 - Linear
    - Regression (linear und logistisch)
        - Tendiert zu Overfitting!
 - Baumbasiert
    - Entscheidungsbaum
        - kann instabil sein, kleine Anpassungen führen zu grossen Veränderungen
    - Random Forest
        - vorhersagen können schwer verständlich sein, und sind langsam
    - Gradientenboosting
        - auch schwer verständlich, sensitiv auf kleine Änderungen im Modell
 - Tiefgründiges lernen
    - Neuronale Netzwerke
        - nahezu unmöglich zu versthen, training extrem langsam
 ### Versionverwaltung
 - Unerlässlich, besonders für Audits
    - Es muss auch später klar sein wann welches Modell wo im Einsatz war
 - Modelle müssen reproduzierbar sein!
    - Daher muss klar nachvollziehbar sein wie ein Modell zu stande kam
    - Ergebnisse
    - Implementierung
    - Umgebung
 ## Vorbereitung für die Produktion
 ### Laufzeitumgebung
 - Modell Pipeline
    - Werkzeuge müssen während der Modellentwicklung eingerichtet werden
    - Reproduzierbarkeit und Versionskontrolle beachten!
 ### Modellrisikobewertung
 - Was wenn sich das Modell auf die denkbar schlechteste Weise verhält?
    - Worst Case Szenario abbilden
 - Was wenn es dem Benutzer gelingt die Trainingsdaten oder die interne Logik zu extrahieren?
 - Risikoabschätzung, im Wesentlichen folgendes
    - Fehler, Irrtümer beim Entwurf oder Training
    - Fehler im Laufzeit-Framework
    - Geringe Qualität der Trainingsdaten
    - Unterschied Trainingsdaten und Produktionsdaten (zu gross)
    - Missbrauch des Modells
    - Gegnerische Angriffe
    - Rechtliches Risiko
 ## Bereitstellunge in der Produktion
 ### CI/CD Pipelines
 1. Modell erstellen
    - Artefakte erstellen
    - ins Artifactory pushen
    - Überprüfungen (Rechtliches etc.)
 2. Bereitstellung in Testumgebung
    - Tests durchführen, ML Leistung und Rechenleistung validieren
    - Manuelle Validierung
 3. Bereitstellung in Produktion
    - Modell vollständig implementieren
 ### Überwachungs und Rückkopplungsschleife
 - Wie oft sollten Modelle neu trainiert werden?
    - kommt aufs Modell drauf an
    - Entscheidungsgrundlagen
        - Bereich
            - In Cybersicherheit und Echtzeitverarbeitung regelmässig aktualisieren
            - Spracherkennung bspw. stabiler
        - Kosten
            - Lohnt es sich?
        - Leistungsfähigkeit des Modells
 ### Modellverschlechterung
 - Sobald das Modell in Produktion ist gibt es zwei wichtige Kennzahlen
    - Bewertung der Realität
        - man wartet einfach bis was passiert
        - berechnung der Leistung des Modells auf basis tatsächlicher Werte
        - wenn Differenz den Schwellenwert überschreitet, muss das Modell neu trainiert werden
    - Eingangsdrifterkennung
        - Eine Abweichung der Datenverteilung zwischen Trainings- und Testphase
        - Problem: Leistung des Modells in Produktion nicht gleich wie in Training
        - Mögliche Ursachen:
            - Verzerrung durch Stichprobenauswahl
            - Saisonalität
            - Nicht-Stationäre Umgebgung
        - Erkennung: Mit statistischen Tests