cas-pml/SL/notizen/L2_Notizen.md

# Notizen SL Lektion 2

>Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering
>Datum: 21.05.2026
>Dozentin: Violeta Vogel

## Überwachtes Lernen vs. Unüberwachtes Lernen

- beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
- beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten

## Übungsaufgabe 1

> Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels)
> für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.

1. Pretraining
    - Self-Supervised (Next-Token-Prediction auf riesigen Text)
    - "Unsupervised"
2. Supervised Fine-Tuning (SFT)
    - Überwacht (Mensch schreibt ideale Antworten auf Prompts)
3. RLHF / RLAIF / DPO
    - Reinforcement Learning aus menschlichem (oder KI-) Feedback
    - DPO: Direct Preference Optimization

## Datenverständnis

1. Sammeln der Daten
    - Beschaffen der in den Projektressourcen aufgeführten Daten
    - Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
2. Daten beschreiben
    - Erkennen wie jedes einzelne Feature aussieht
    - In welchem Format sind die Daten?
    - Wie viele Daten habe ich, wie gross ist der Datensatz?
3. Daten erkunden
    - Wie sind die Daten verteilt?
    - Gibt es Beziehungen zwischen den Daten?
    - Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
    - Datenexplorationsbericht erstellen
4. Datenqualität prüfen
    - Sind die Daten vollständig?
    - Datenqualitätsbericht erstellen


## EDA: Ziele und Methoden

- Mustererkennung
- Datenbereinigung
- Visualisierung
- Hypothesengenerierung

## EDA: Explorative Datenanalyse

- Anomalien
    - Ausreisser, Datenpunkte die stark von der Norm abweichen
- Mögliche Anomalien
    - Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
    - Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
    - Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
- mögliche Anomalien nach Variablenart
    - nicht numberische Daten
        - fehlende Werte
        - Duplikate
        - Kategorien Variablen
            - hohe Kardinalität (viele eindeutige Werte)
            - nicht balancierte Daten
    - numberische Variablen
        - schiefe Verteilung
        - Ausreisser
        - Korrelationen
        - diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)

## Klassierung

> Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche
Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.

- Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
- Vorgehen: Festlegung von Klassengrenzen
- Datstellung: Histogramme
- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind