Files
cas-pml/SL/notizen/L2_Notizen.md
T

84 lines
3.0 KiB
Markdown

# Notizen SL Lektion 2
>Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering
>Datum: 21.05.2026
>Dozentin: Violeta Vogel
## Überwachtes Lernen vs. Unüberwachtes Lernen
- beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
- beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten
## Übungsaufgabe 1
> Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels)
> für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.
1. Pretraining
- Self-Supervised (Next-Token-Prediction auf riesigen Text)
- "Unsupervised"
2. Supervised Fine-Tuning (SFT)
- Überwacht (Mensch schreibt ideale Antworten auf Prompts)
3. RLHF / RLAIF / DPO
- Reinforcement Learning aus menschlichem (oder KI-) Feedback
- DPO: Direct Preference Optimization
## Datenverständnis
1. Sammeln der Daten
- Beschaffen der in den Projektressourcen aufgeführten Daten
- Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
2. Daten beschreiben
- Erkennen wie jedes einzelne Feature aussieht
- In welchem Format sind die Daten?
- Wie viele Daten habe ich, wie gross ist der Datensatz?
3. Daten erkunden
- Wie sind die Daten verteilt?
- Gibt es Beziehungen zwischen den Daten?
- Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
- Datenexplorationsbericht erstellen
4. Datenqualität prüfen
- Sind die Daten vollständig?
- Datenqualitätsbericht erstellen
## EDA: Ziele und Methoden
- Mustererkennung
- Datenbereinigung
- Visualisierung
- Hypothesengenerierung
## EDA: Explorative Datenanalyse
- Anomalien
- Ausreisser, Datenpunkte die stark von der Norm abweichen
- Mögliche Anomalien
- Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
- Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
- Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
- mögliche Anomalien nach Variablenart
- nicht numberische Daten
- fehlende Werte
- Duplikate
- Kategorien Variablen
- hohe Kardinalität (viele eindeutige Werte)
- nicht balancierte Daten
- numberische Variablen
- schiefe Verteilung
- Ausreisser
- Korrelationen
- diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)
## Klassierung
> Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche
Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.
- Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
- Vorgehen: Festlegung von Klassengrenzen
- Datstellung: Histogramme
- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind