Files
cas-pml/SL/notizen/L2_Notizen.md
T

3.0 KiB

Notizen SL Lektion 2

Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering Datum: 21.05.2026 Dozentin: Violeta Vogel

Überwachtes Lernen vs. Unüberwachtes Lernen

  • beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
  • beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten

Übungsaufgabe 1

Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels) für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.

  1. Pretraining
    • Self-Supervised (Next-Token-Prediction auf riesigen Text)
    • "Unsupervised"
  2. Supervised Fine-Tuning (SFT)
    • Überwacht (Mensch schreibt ideale Antworten auf Prompts)
  3. RLHF / RLAIF / DPO
    • Reinforcement Learning aus menschlichem (oder KI-) Feedback
    • DPO: Direct Preference Optimization

Datenverständnis

  1. Sammeln der Daten
    • Beschaffen der in den Projektressourcen aufgeführten Daten
    • Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
  2. Daten beschreiben
    • Erkennen wie jedes einzelne Feature aussieht
    • In welchem Format sind die Daten?
    • Wie viele Daten habe ich, wie gross ist der Datensatz?
  3. Daten erkunden
    • Wie sind die Daten verteilt?
    • Gibt es Beziehungen zwischen den Daten?
    • Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
    • Datenexplorationsbericht erstellen
  4. Datenqualität prüfen
    • Sind die Daten vollständig?
    • Datenqualitätsbericht erstellen

EDA: Ziele und Methoden

  • Mustererkennung
  • Datenbereinigung
  • Visualisierung
  • Hypothesengenerierung

EDA: Explorative Datenanalyse

  • Anomalien
    • Ausreisser, Datenpunkte die stark von der Norm abweichen
  • Mögliche Anomalien
    • Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
    • Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
    • Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
  • mögliche Anomalien nach Variablenart
    • nicht numberische Daten
      • fehlende Werte
      • Duplikate
      • Kategorien Variablen
        • hohe Kardinalität (viele eindeutige Werte)
        • nicht balancierte Daten
    • numberische Variablen
      • schiefe Verteilung
      • Ausreisser
      • Korrelationen
      • diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)

Klassierung

Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.

  • Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
  • Vorgehen: Festlegung von Klassengrenzen
  • Datstellung: Histogramme
  • Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind