feature(notes): add notes from lession 2 morning
This commit is contained in:
@@ -0,0 +1,83 @@
|
|||||||
|
# Notizen SL Lektion 2
|
||||||
|
|
||||||
|
>Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering
|
||||||
|
>Datum: 21.05.2026
|
||||||
|
>Dozentin: Violeta Vogel
|
||||||
|
|
||||||
|
## Überwachtes Lernen vs. Unüberwachtes Lernen
|
||||||
|
|
||||||
|
- beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
|
||||||
|
- beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten
|
||||||
|
|
||||||
|
## Übungsaufgabe 1
|
||||||
|
|
||||||
|
> Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels)
|
||||||
|
> für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.
|
||||||
|
|
||||||
|
1. Pretraining
|
||||||
|
- Self-Supervised (Next-Token-Prediction auf riesigen Text)
|
||||||
|
- "Unsupervised"
|
||||||
|
2. Supervised Fine-Tuning (SFT)
|
||||||
|
- Überwacht (Mensch schreibt ideale Antworten auf Prompts)
|
||||||
|
3. RLHF / RLAIF / DPO
|
||||||
|
- Reinforcement Learning aus menschlichem (oder KI-) Feedback
|
||||||
|
- DPO: Direct Preference Optimization
|
||||||
|
|
||||||
|
## Datenverständnis
|
||||||
|
|
||||||
|
1. Sammeln der Daten
|
||||||
|
- Beschaffen der in den Projektressourcen aufgeführten Daten
|
||||||
|
- Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
|
||||||
|
2. Daten beschreiben
|
||||||
|
- Erkennen wie jedes einzelne Feature aussieht
|
||||||
|
- In welchem Format sind die Daten?
|
||||||
|
- Wie viele Daten habe ich, wie gross ist der Datensatz?
|
||||||
|
3. Daten erkunden
|
||||||
|
- Wie sind die Daten verteilt?
|
||||||
|
- Gibt es Beziehungen zwischen den Daten?
|
||||||
|
- Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
|
||||||
|
- Datenexplorationsbericht erstellen
|
||||||
|
4. Datenqualität prüfen
|
||||||
|
- Sind die Daten vollständig?
|
||||||
|
- Datenqualitätsbericht erstellen
|
||||||
|
|
||||||
|
|
||||||
|
## EDA: Ziele und Methoden
|
||||||
|
|
||||||
|
- Mustererkennung
|
||||||
|
- Datenbereinigung
|
||||||
|
- Visualisierung
|
||||||
|
- Hypothesengenerierung
|
||||||
|
|
||||||
|
## EDA: Explorative Datenanalyse
|
||||||
|
|
||||||
|
- Anomalien
|
||||||
|
- Ausreisser, Datenpunkte die stark von der Norm abweichen
|
||||||
|
- Mögliche Anomalien
|
||||||
|
- Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
|
||||||
|
- Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
|
||||||
|
- Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
|
||||||
|
- mögliche Anomalien nach Variablenart
|
||||||
|
- nicht numberische Daten
|
||||||
|
- fehlende Werte
|
||||||
|
- Duplikate
|
||||||
|
- Kategorien Variablen
|
||||||
|
- hohe Kardinalität (viele eindeutige Werte)
|
||||||
|
- nicht balancierte Daten
|
||||||
|
- numberische Variablen
|
||||||
|
- schiefe Verteilung
|
||||||
|
- Ausreisser
|
||||||
|
- Korrelationen
|
||||||
|
- diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)
|
||||||
|
|
||||||
|
## Klassierung
|
||||||
|
|
||||||
|
> Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche
|
||||||
|
Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.
|
||||||
|
|
||||||
|
- Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
|
||||||
|
- Vorgehen: Festlegung von Klassengrenzen
|
||||||
|
- Datstellung: Histogramme
|
||||||
|
- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind
|
||||||
|
|
||||||
|
|
||||||
Reference in New Issue
Block a user