223 lines
7.0 KiB
Markdown
223 lines
7.0 KiB
Markdown
# Notizen SL Lektion 1
|
|
|
|
>Thema: Einführung Überwachtes Lernen
|
|
>Datum: 07.05.2026
|
|
>Dozentin: Violeta Vogel
|
|
|
|
## Kurzpräsentationen
|
|
|
|
>Thema: MLOps, ModelOps, Modelllebenszyklus, ML-Engineering
|
|
|
|
- Hierarchie:
|
|
- **ML-Engineering** ist die Bauarbeit
|
|
- **MLOps** die Betriebsdisziplin für ML
|
|
- **ModelOps** der Governance-Schirm über alle Modelltypen
|
|
- der **Modelllebenszyklus** ist das Objekt, das alle drei managen
|
|
|
|
## Geschäftsverständnis
|
|
|
|
- 80-85% von allen ML-Modellen schaffen es nicht über den PoC Status hinaus, warum?
|
|
- Fehler in Modellen werden nicht früh genug erkannt
|
|
- Bspw. Kreditkartenanalyse PostFinance
|
|
- Immer erst schauen welche Probleme sind überhaupt vorhanden?
|
|
- GenAI ist nid immer die optimale Lösung
|
|
- Oft reicht einfache Statistik
|
|
- ist es ein Klassifikationsproblem, Clusteringproblem oder Visualisierungsproblem?
|
|
- Was braucht ein Unternehmen?
|
|
1. Geschäftsziele festlegen
|
|
- des eigenen Bias bewusst sein
|
|
- was will man erreichen?
|
|
- Kosten/Nutzen definieren
|
|
2. Situationsanalyse
|
|
3. Data-Mining Ziele festlegen
|
|
4. Projektplan erstellen
|
|
|
|
## Datenverständnis
|
|
|
|
>Welche Daten haben wir? Welche benötigen wir? Sind die Daten sauber?
|
|
|
|
1. Ausgangsdaten sammeln
|
|
- notewendige Daten beschaffen
|
|
2. Daten beschreiben
|
|
- Dokumentieren der Oberflächeneigenschaften, Datenformat, Anzahl der Datensätze
|
|
3. Daten erkunden
|
|
- Visualisierungen erstellen
|
|
4. Datenqualität Überprüfen
|
|
|
|
## Datenaufbereitung
|
|
|
|
>Wie organisieren wir Daten für die Modellierung
|
|
|
|
1. Daten auswählen
|
|
- bestimmen welche Datensätze verwendet werden
|
|
2. Datenbereinigung
|
|
- Ist aufwändig und wichtig, genug Zeit investieren!
|
|
3. Daten erstellen
|
|
- Neue attribute ableiten
|
|
4. Daten integrieren
|
|
- Neue Datensätze erstellen durch eventuelles Kombinieren
|
|
5. Daten formatieren
|
|
- Bei bedarf umformatieren um bspw. mathematische Operationen durchzuführen
|
|
|
|
## Modellentwicklung
|
|
|
|
>Welche Modellierungstechniken sollten wir anwenden?
|
|
|
|
1. Modellierungstechniken auswählen
|
|
- Algorithmus ausprobieren
|
|
2. Testdesign erstellen
|
|
- Trainings, Test und Validierungsdatensätze auswählen
|
|
3. Modell erstellen
|
|
- Ist je nach Modell ziemlich automatisiert
|
|
- Infrastruktur kann hier zum Problem werden
|
|
4. Bewerten des Modells
|
|
- Oft konkurieren mehrere Modelle miteinander
|
|
- Testdesign interpretieren, das ist nicht trivial
|
|
|
|
## Modellbewertung
|
|
|
|
>Welches Modell erfüllt die Geschäftsziele am besten?
|
|
|
|
1. Ergebnisse auswerten
|
|
- Erfüllen die Modelle die Kriterien für den Geschäftserfolg?
|
|
- Darf das Modell für das Unternehmen freigegeben werden?
|
|
2. Überprüfungsprozess
|
|
- Ergebnisse genau anschauen!
|
|
- Gegebenenfalls Fehler korrigiern
|
|
3. Nächste Schritte Festlegen
|
|
- weitere Iterationen anfangen
|
|
- Folgeprojekte lancieren
|
|
|
|
## Einsatz
|
|
|
|
>Wie erhalten die Interessengruppen Zugriff auf die Ergebnisse?
|
|
|
|
1. Bereitstellungsplan
|
|
- Plan für die Bereitstellung des Modells
|
|
2. Überwachung und Wartung
|
|
- Plan ertellen um Probleme während der Betriebsphase zu vermeiden
|
|
3. Abschlussbericht erstellen
|
|
4. Projektrückblick
|
|
|
|
## Techstack für Unternehmen
|
|
|
|
- Daten
|
|
- Quellsystem -> Landeplatz -> Funktionen für ML
|
|
- Landeplatz für Daten
|
|
- ML-Infrastruktur
|
|
- Python
|
|
- Git
|
|
- Kundenanwendgunen
|
|
- Datenvisualisierung
|
|
- Infrastruktur
|
|
- Entwicklung
|
|
- Test
|
|
- Integration
|
|
- Betrieb (Prod)
|
|
- Trennung zwischen Datenhaltung und ML-Infra wichtig!
|
|
|
|
## MLOps
|
|
|
|
- Maschinelles Lernen (ML) und Operations (Ops)
|
|
- Automatisierung, Agilität und Zusammenarbeit
|
|
|
|
## DevOps
|
|
|
|
- Build, Plan, Code, Deploy -> Loop
|
|
- Automatisieren, Monitoren, IaC, Microsservices
|
|
- Anti-Pattern im Bereich des ML:
|
|
- Nur ein Produktionsmodell bauen welches ein Problem "perfekt" Lösen soll
|
|
- Skalierbarer und umsichtiger Ansatz wählen
|
|
|
|
## MLOps vs DevOps
|
|
|
|
Todo: Refactor
|
|
|
|
>Ein ML-System ist ein Softwaresystem,
|
|
>und Softwaresysteme funktionieren
|
|
>effizient und zuverlässig, wenn
|
|
>DevOps- und Data-Engineering-Best-
|
|
>Practices angewendet werden.
|
|
|
|
>Eines der Hauptprobleme, die Projekte
|
|
>im Bereich des maschinellen Lernens
|
|
>behindern, ist die fehlende
|
|
>Notwendigkeit einer soliden
|
|
>Grundlage aus DevOps,
|
|
>Datenautomatisierung,
|
|
>Plattformautomatisierung und
|
|
>schließlich echter ML-
|
|
>Automatisierung.
|
|
|
|
|
|
| Aspekt | MLOps | DevOps |
|
|
| ------ | ----- | ------ |
|
|
| Foku | ML-Operationen und Modelle | Softwareentwicklung und IT-Betrieb |
|
|
| Zweck | Optimieren ML-Workflows, Bereitsstellung un Betrieb | Optimierung von Softwareentwicklung, Bereitstellung un Betrieb |
|
|
| Hauptkomponenten | Datenpipelines, Modellregister, Überwachung | Code-Repos, CI/CD-Pipelines, Infrastruktur |
|
|
| Datenverarbeitung | Behandelt ML-Spezifische Daten | Verwaltet Code und anwendungsbezogene Daten |
|
|
| Hauptherausvorderung | Modelldrift, Datenverzerrung, Modellerklärbarkeit | Kontinuierliche Integration, Infrastrukturmanagement |
|
|
| Kernziel | Verbesserung der Bereitstellung und Verwaltung von ML-Modellen | Beschleunigen Sie die Softwarebereitstellung und -zuverlässigkeit |
|
|
| Kernaktivität | Modelltraining, Validierung, Überwachung | |
|
|
| Zusammmenarbeit | | |
|
|
| Hauptvorteil | | |
|
|
|
|
|
|
## Gestaltungsprinzipien
|
|
|
|
- Verantwortung übernehmen
|
|
- Ressourcen gut verteilen um Produktivität zu steigern
|
|
- Schutz gewährleisten
|
|
- Sicherheitskontrollen für Algorithmen und Endpunkte
|
|
- Ermöglichen von Ausfallsicherheit
|
|
- Fehlertoleranz und Wiederherstellbarkeit
|
|
- Ermöglichen von Wiederverwendbarkeit
|
|
- Modelle wiederverwenden
|
|
|
|
## Rollenverteilung
|
|
|
|
- Fachexperten
|
|
- Datenwissenschaftler
|
|
- Dateningenieure
|
|
- Softwareingenieure
|
|
- DevOps
|
|
- Modellrisikomanager / Auditoren
|
|
- Architekten für ML
|
|
|
|
## Anwendungsfall für KI finden
|
|
|
|
- Ziele der Projekte
|
|
- darf nicht abstrakt bleiben
|
|
- kontreter Anwendungsfall
|
|
- Schlechtes Beispiel: Steigerung des Gesamtumsatzes
|
|
- Gutes Beispiel: Kaufempfehlung auf Basis von Produkten die zusammen gekauft wurden
|
|
- Ziel: Bestellmenge pro Kunde um X% erhöhen
|
|
- Mittel: Empfehlungssystem (Recommendation System)
|
|
|
|
- Kategorien von KI-Anwendungen
|
|
1. Intelligent Prognosen und Datenanlysen zur Unterstützung verschiedener Entscheidungen
|
|
2. Innovative Prozess- oder Serviceautomatisierung zur Kostensenkung und Produktivitätssteigerung
|
|
3. Neue Produkte und Dienstleistungen, die einen zusätzlichen Wert generieren
|
|
4. Einfachere oder bessere Benutzererfahrung und autonome Systeme
|
|
|
|
### Beispiele
|
|
|
|
- Verbesserung der Genauigkeit der Treibstoffberechnung bei Airlines um das Mitführen von zusätzlichem Treibstoff zu vermeiden
|
|
- Bis zu ~35% des Umsatzes von Amazon stammt aus KI-gestützten Empfehlungen
|
|
- Netflix schätzt den Umsatz seiner personalisierten Empfehlung auf ~1 Milliarde Dollar
|
|
|
|
## 12 häufigste Anwendungsfälle für KI
|
|
|
|
1. Produkteempfehlungen
|
|
2. Chatbots
|
|
3. Marketing und Inhalte
|
|
4. Kundenstimmungsanalyse
|
|
5. Absatzprognose
|
|
6. Preisoptimierung
|
|
7. Cybersicherheit
|
|
8. Betrugsvorhersage
|
|
9. Ressourcenoptimierung
|
|
10. Bedarfsprognose
|
|
11. Gesundheitspflege
|
|
12. Vorausschauende Wartung
|