From c889e04ac6e38bec2cac9bed96024bc85b51f04e Mon Sep 17 00:00:00 2001 From: aaron Date: Thu, 11 Jun 2026 15:59:22 +0200 Subject: [PATCH] feature(notes): add final l5 notes --- SL/notizen/L5_Notizen.md | 125 +++++++++++++++++++++++++++++++++++++++ 1 file changed, 125 insertions(+) diff --git a/SL/notizen/L5_Notizen.md b/SL/notizen/L5_Notizen.md index 151c465..24f00ff 100644 --- a/SL/notizen/L5_Notizen.md +++ b/SL/notizen/L5_Notizen.md @@ -460,3 +460,128 @@ sns.boxplot(x=scores) - **mean** → durchschnittliche Performance. - **std** → **Stabilität** des Learners: wie stark hängt die Performance von der zufälligen Datenaufteilung (random_state) ab. - **kleine std = stabileres** Resultat der Methode. + +# ML OPs (Foliensatz 15) + +## Hauptaufgaben + +1. Entwicklung der Modelle +2. Vorbereitung für die Produktion +3. Bereitstellen in der Produktion +4. Überwachungs- und Rückkopplungsschleife +5. Modellsteuerung + +## Modelle Entwickeln + +- Ein ML-Modell ist eine Projektion der Realität +- Partielle und annähernde Darstellung einer realen Sache oder Prozesses +- ML-Modelle reduzieren sich nach dem Training auf eine mathematische Formel + - liefert bei Eingabe bestimmter Parameter ein Ergebnis +- ein ML-Modell ist + - Die Menge der Parameter die zum Wiederaufbau und zur Anwendung der Formel erforderlich sind + - Zustandslos und determisnistisch + +### Erforderliche Komponenten + +- Trainingsdaten + - Datensatz fürs Modelltraining +- Leistungskennzahl + - Was versucht das Modell zu optimieren? +- ML-Algorithmus + - Priorität auf Leistung, Stabilität, Interpretierbarkeit und Rechenkosten +- Hyperparameter + - Konfigurationen für die ML-Algorithmen, quasi das Feintuning +- Auswertungsdaten + - Unterscheided sich vom Trainingsdatensatz und wird verwendet um zu bewerten + +### MLOps Überlegungen nach Alorithmustyp + +> Wichtig ist sich den Limitationen aller Algorithmen bewusst zu sein + +- Linear + - Regression (linear und logistisch) + - Tendiert zu Overfitting! +- Baumbasiert + - Entscheidungsbaum + - kann instabil sein, kleine Anpassungen führen zu grossen Veränderungen + - Random Forest + - vorhersagen können schwer verständlich sein, und sind langsam + - Gradientenboosting + - auch schwer verständlich, sensitiv auf kleine Änderungen im Modell +- Tiefgründiges lernen + - Neuronale Netzwerke + - nahezu unmöglich zu versthen, training extrem langsam + +### Versionverwaltung + +- Unerlässlich, besonders für Audits + - Es muss auch später klar sein wann welches Modell wo im Einsatz war +- Modelle müssen reproduzierbar sein! + - Daher muss klar nachvollziehbar sein wie ein Modell zu stande kam + - Ergebnisse + - Implementierung + - Umgebung + +## Vorbereitung für die Produktion + +### Laufzeitumgebung + +- Modell Pipeline + - Werkzeuge müssen während der Modellentwicklung eingerichtet werden + - Reproduzierbarkeit und Versionskontrolle beachten! + +### Modellrisikobewertung + +- Was wenn sich das Modell auf die denkbar schlechteste Weise verhält? + - Worst Case Szenario abbilden +- Was wenn es dem Benutzer gelingt die Trainingsdaten oder die interne Logik zu extrahieren? +- Risikoabschätzung, im Wesentlichen folgendes + - Fehler, Irrtümer beim Entwurf oder Training + - Fehler im Laufzeit-Framework + - Geringe Qualität der Trainingsdaten + - Unterschied Trainingsdaten und Produktionsdaten (zu gross) + - Missbrauch des Modells + - Gegnerische Angriffe + - Rechtliches Risiko + +## Bereitstellunge in der Produktion + +### CI/CD Pipelines + +1. Modell erstellen + - Artefakte erstellen + - ins Artifactory pushen + - Überprüfungen (Rechtliches etc.) +2. Bereitstellung in Testumgebung + - Tests durchführen, ML Leistung und Rechenleistung validieren + - Manuelle Validierung +3. Bereitstellung in Produktion + - Modell vollständig implementieren + +### Überwachungs und Rückkopplungsschleife + +- Wie oft sollten Modelle neu trainiert werden? + - kommt aufs Modell drauf an + - Entscheidungsgrundlagen + - Bereich + - In Cybersicherheit und Echtzeitverarbeitung regelmässig aktualisieren + - Spracherkennung bspw. stabiler + - Kosten + - Lohnt es sich? + - Leistungsfähigkeit des Modells + +### Modellverschlechterung + +- Sobald das Modell in Produktion ist gibt es zwei wichtige Kennzahlen + - Bewertung der Realität + - man wartet einfach bis was passiert + - berechnung der Leistung des Modells auf basis tatsächlicher Werte + - wenn Differenz den Schwellenwert überschreitet, muss das Modell neu trainiert werden + - Eingangsdrifterkennung + - Eine Abweichung der Datenverteilung zwischen Trainings- und Testphase + - Problem: Leistung des Modells in Produktion nicht gleich wie in Training + - Mögliche Ursachen: + - Verzerrung durch Stichprobenauswahl + - Saisonalität + - Nicht-Stationäre Umgebgung + - Erkennung: Mit statistischen Tests