7.0 KiB
Notizen SL Lektion 1
Thema: Einführung Überwachtes Lernen Datum: 07.05.2026 Dozentin: Violeta Vogel
Kurzpräsentationen
Thema: MLOps, ModelOps, Modelllebenszyklus, ML-Engineering
- Hierarchie:
- ML-Engineering ist die Bauarbeit
- MLOps die Betriebsdisziplin für ML
- ModelOps der Governance-Schirm über alle Modelltypen
- der Modelllebenszyklus ist das Objekt, das alle drei managen
Geschäftsverständnis
- 80-85% von allen ML-Modellen schaffen es nicht über den PoC Status hinaus, warum?
- Fehler in Modellen werden nicht früh genug erkannt
- Bspw. Kreditkartenanalyse PostFinance
- Immer erst schauen welche Probleme sind überhaupt vorhanden?
- GenAI ist nid immer die optimale Lösung
- Oft reicht einfache Statistik
- ist es ein Klassifikationsproblem, Clusteringproblem oder Visualisierungsproblem?
- Was braucht ein Unternehmen?
- Geschäftsziele festlegen
- des eigenen Bias bewusst sein
- was will man erreichen?
- Kosten/Nutzen definieren
- Situationsanalyse
- Data-Mining Ziele festlegen
- Projektplan erstellen
- Geschäftsziele festlegen
Datenverständnis
Welche Daten haben wir? Welche benötigen wir? Sind die Daten sauber?
- Ausgangsdaten sammeln
- notewendige Daten beschaffen
- Daten beschreiben
- Dokumentieren der Oberflächeneigenschaften, Datenformat, Anzahl der Datensätze
- Daten erkunden
- Visualisierungen erstellen
- Datenqualität Überprüfen
Datenaufbereitung
Wie organisieren wir Daten für die Modellierung
- Daten auswählen
- bestimmen welche Datensätze verwendet werden
- Datenbereinigung
- Ist aufwändig und wichtig, genug Zeit investieren!
- Daten erstellen
- Neue attribute ableiten
- Daten integrieren
- Neue Datensätze erstellen durch eventuelles Kombinieren
- Daten formatieren
- Bei bedarf umformatieren um bspw. mathematische Operationen durchzuführen
Modellentwicklung
Welche Modellierungstechniken sollten wir anwenden?
- Modellierungstechniken auswählen
- Algorithmus ausprobieren
- Testdesign erstellen
- Trainings, Test und Validierungsdatensätze auswählen
- Modell erstellen
- Ist je nach Modell ziemlich automatisiert
- Infrastruktur kann hier zum Problem werden
- Bewerten des Modells
- Oft konkurieren mehrere Modelle miteinander
- Testdesign interpretieren, das ist nicht trivial
Modellbewertung
Welches Modell erfüllt die Geschäftsziele am besten?
- Ergebnisse auswerten
- Erfüllen die Modelle die Kriterien für den Geschäftserfolg?
- Darf das Modell für das Unternehmen freigegeben werden?
- Überprüfungsprozess
- Ergebnisse genau anschauen!
- Gegebenenfalls Fehler korrigiern
- Nächste Schritte Festlegen
- weitere Iterationen anfangen
- Folgeprojekte lancieren
Einsatz
Wie erhalten die Interessengruppen Zugriff auf die Ergebnisse?
- Bereitstellungsplan
- Plan für die Bereitstellung des Modells
- Überwachung und Wartung
- Plan ertellen um Probleme während der Betriebsphase zu vermeiden
- Abschlussbericht erstellen
- Projektrückblick
Techstack für Unternehmen
- Daten
- Quellsystem -> Landeplatz -> Funktionen für ML
- Landeplatz für Daten
- ML-Infrastruktur
- Python
- Git
- Kundenanwendgunen
- Datenvisualisierung
- Infrastruktur
- Entwicklung
- Test
- Integration
- Betrieb (Prod)
- Trennung zwischen Datenhaltung und ML-Infra wichtig!
MLOps
- Maschinelles Lernen (ML) und Operations (Ops)
- Automatisierung, Agilität und Zusammenarbeit
DevOps
- Build, Plan, Code, Deploy -> Loop
- Automatisieren, Monitoren, IaC, Microsservices
- Anti-Pattern im Bereich des ML:
- Nur ein Produktionsmodell bauen welches ein Problem "perfekt" Lösen soll
- Skalierbarer und umsichtiger Ansatz wählen
MLOps vs DevOps
Todo: Refactor
Ein ML-System ist ein Softwaresystem, und Softwaresysteme funktionieren effizient und zuverlässig, wenn DevOps- und Data-Engineering-Best- Practices angewendet werden.
Eines der Hauptprobleme, die Projekte im Bereich des maschinellen Lernens behindern, ist die fehlende Notwendigkeit einer soliden Grundlage aus DevOps, Datenautomatisierung, Plattformautomatisierung und schließlich echter ML- Automatisierung.
| Aspekt | MLOps | DevOps |
|---|---|---|
| Foku | ML-Operationen und Modelle | Softwareentwicklung und IT-Betrieb |
| Zweck | Optimieren ML-Workflows, Bereitsstellung un Betrieb | Optimierung von Softwareentwicklung, Bereitstellung un Betrieb |
| Hauptkomponenten | Datenpipelines, Modellregister, Überwachung | Code-Repos, CI/CD-Pipelines, Infrastruktur |
| Datenverarbeitung | Behandelt ML-Spezifische Daten | Verwaltet Code und anwendungsbezogene Daten |
| Hauptherausvorderung | Modelldrift, Datenverzerrung, Modellerklärbarkeit | Kontinuierliche Integration, Infrastrukturmanagement |
| Kernziel | Verbesserung der Bereitstellung und Verwaltung von ML-Modellen | Beschleunigen Sie die Softwarebereitstellung und -zuverlässigkeit |
| Kernaktivität | Modelltraining, Validierung, Überwachung | |
| Zusammmenarbeit | ||
| Hauptvorteil |
Gestaltungsprinzipien
- Verantwortung übernehmen
- Ressourcen gut verteilen um Produktivität zu steigern
- Schutz gewährleisten
- Sicherheitskontrollen für Algorithmen und Endpunkte
- Ermöglichen von Ausfallsicherheit
- Fehlertoleranz und Wiederherstellbarkeit
- Ermöglichen von Wiederverwendbarkeit
- Modelle wiederverwenden
Rollenverteilung
- Fachexperten
- Datenwissenschaftler
- Dateningenieure
- Softwareingenieure
- DevOps
- Modellrisikomanager / Auditoren
- Architekten für ML
Anwendungsfall für KI finden
-
Ziele der Projekte
- darf nicht abstrakt bleiben
- kontreter Anwendungsfall
- Schlechtes Beispiel: Steigerung des Gesamtumsatzes
- Gutes Beispiel: Kaufempfehlung auf Basis von Produkten die zusammen gekauft wurden
- Ziel: Bestellmenge pro Kunde um X% erhöhen
- Mittel: Empfehlungssystem (Recommendation System)
-
Kategorien von KI-Anwendungen
- Intelligent Prognosen und Datenanlysen zur Unterstützung verschiedener Entscheidungen
- Innovative Prozess- oder Serviceautomatisierung zur Kostensenkung und Produktivitätssteigerung
- Neue Produkte und Dienstleistungen, die einen zusätzlichen Wert generieren
- Einfachere oder bessere Benutzererfahrung und autonome Systeme
Beispiele
- Verbesserung der Genauigkeit der Treibstoffberechnung bei Airlines um das Mitführen von zusätzlichem Treibstoff zu vermeiden
- Bis zu ~35% des Umsatzes von Amazon stammt aus KI-gestützten Empfehlungen
- Netflix schätzt den Umsatz seiner personalisierten Empfehlung auf ~1 Milliarde Dollar
12 häufigste Anwendungsfälle für KI
- Produkteempfehlungen
- Chatbots
- Marketing und Inhalte
- Kundenstimmungsanalyse
- Absatzprognose
- Preisoptimierung
- Cybersicherheit
- Betrugsvorhersage
- Ressourcenoptimierung
- Bedarfsprognose
- Gesundheitspflege
- Vorausschauende Wartung