Notizen SL Lektion 2

Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering Datum: 21.05.2026 Dozentin: Violeta Vogel

Überwachtes Lernen vs. Unüberwachtes Lernen

beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten

Übungsaufgabe 1

Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels) für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.

Pretraining
- Self-Supervised (Next-Token-Prediction auf riesigen Text)
- "Unsupervised"
Supervised Fine-Tuning (SFT)
- Überwacht (Mensch schreibt ideale Antworten auf Prompts)
RLHF / RLAIF / DPO
- Reinforcement Learning aus menschlichem (oder KI-) Feedback
- DPO: Direct Preference Optimization

Datenverständnis

Sammeln der Daten
- Beschaffen der in den Projektressourcen aufgeführten Daten
- Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
Daten beschreiben
- Erkennen wie jedes einzelne Feature aussieht
- In welchem Format sind die Daten?
- Wie viele Daten habe ich, wie gross ist der Datensatz?
Daten erkunden
- Wie sind die Daten verteilt?
- Gibt es Beziehungen zwischen den Daten?
- Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
- Datenexplorationsbericht erstellen
Datenqualität prüfen
- Sind die Daten vollständig?
- Datenqualitätsbericht erstellen

EDA: Ziele und Methoden

Mustererkennung
Datenbereinigung
Visualisierung
Hypothesengenerierung

EDA: Explorative Datenanalyse

Anomalien
- Ausreisser, Datenpunkte die stark von der Norm abweichen
Mögliche Anomalien
- Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
- Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
- Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
mögliche Anomalien nach Variablenart
- nicht numberische Daten
  - fehlende Werte
  - Duplikate
  - Kategorien Variablen
    - hohe Kardinalität (viele eindeutige Werte)
    - nicht balancierte Daten
- numberische Variablen
  - schiefe Verteilung
  - Ausreisser
  - Korrelationen
  - diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)

Klassierung

Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.

Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
Vorgehen: Festlegung von Klassengrenzen
Datstellung: Histogramme
Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind

3.0 KiB Raw Blame History

Notizen SL Lektion 2

Überwachtes Lernen vs. Unüberwachtes Lernen

Übungsaufgabe 1

Datenverständnis

EDA: Ziele und Methoden

EDA: Explorative Datenanalyse

Klassierung

3.0 KiB

Raw Blame History