feature(notes): add notes from lession 2 morning
This commit is contained in:
@@ -0,0 +1,83 @@
|
||||
# Notizen SL Lektion 2
|
||||
|
||||
>Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering
|
||||
>Datum: 21.05.2026
|
||||
>Dozentin: Violeta Vogel
|
||||
|
||||
## Überwachtes Lernen vs. Unüberwachtes Lernen
|
||||
|
||||
- beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
|
||||
- beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten
|
||||
|
||||
## Übungsaufgabe 1
|
||||
|
||||
> Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels)
|
||||
> für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.
|
||||
|
||||
1. Pretraining
|
||||
- Self-Supervised (Next-Token-Prediction auf riesigen Text)
|
||||
- "Unsupervised"
|
||||
2. Supervised Fine-Tuning (SFT)
|
||||
- Überwacht (Mensch schreibt ideale Antworten auf Prompts)
|
||||
3. RLHF / RLAIF / DPO
|
||||
- Reinforcement Learning aus menschlichem (oder KI-) Feedback
|
||||
- DPO: Direct Preference Optimization
|
||||
|
||||
## Datenverständnis
|
||||
|
||||
1. Sammeln der Daten
|
||||
- Beschaffen der in den Projektressourcen aufgeführten Daten
|
||||
- Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
|
||||
2. Daten beschreiben
|
||||
- Erkennen wie jedes einzelne Feature aussieht
|
||||
- In welchem Format sind die Daten?
|
||||
- Wie viele Daten habe ich, wie gross ist der Datensatz?
|
||||
3. Daten erkunden
|
||||
- Wie sind die Daten verteilt?
|
||||
- Gibt es Beziehungen zwischen den Daten?
|
||||
- Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
|
||||
- Datenexplorationsbericht erstellen
|
||||
4. Datenqualität prüfen
|
||||
- Sind die Daten vollständig?
|
||||
- Datenqualitätsbericht erstellen
|
||||
|
||||
|
||||
## EDA: Ziele und Methoden
|
||||
|
||||
- Mustererkennung
|
||||
- Datenbereinigung
|
||||
- Visualisierung
|
||||
- Hypothesengenerierung
|
||||
|
||||
## EDA: Explorative Datenanalyse
|
||||
|
||||
- Anomalien
|
||||
- Ausreisser, Datenpunkte die stark von der Norm abweichen
|
||||
- Mögliche Anomalien
|
||||
- Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
|
||||
- Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
|
||||
- Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
|
||||
- mögliche Anomalien nach Variablenart
|
||||
- nicht numberische Daten
|
||||
- fehlende Werte
|
||||
- Duplikate
|
||||
- Kategorien Variablen
|
||||
- hohe Kardinalität (viele eindeutige Werte)
|
||||
- nicht balancierte Daten
|
||||
- numberische Variablen
|
||||
- schiefe Verteilung
|
||||
- Ausreisser
|
||||
- Korrelationen
|
||||
- diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)
|
||||
|
||||
## Klassierung
|
||||
|
||||
> Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche
|
||||
Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.
|
||||
|
||||
- Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
|
||||
- Vorgehen: Festlegung von Klassengrenzen
|
||||
- Datstellung: Histogramme
|
||||
- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind
|
||||
|
||||
|
||||
Reference in New Issue
Block a user