6.5 KiB
Notizen SL Lektion 2
Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering Datum: 21.05.2026 Dozentin: Violeta Vogel
Überwachtes Lernen vs. Unüberwachtes Lernen
- beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
- beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten
Übungsaufgabe 1
Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels) für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.
- Pretraining
- Self-Supervised (Next-Token-Prediction auf riesigen Text)
- "Unsupervised"
- Supervised Fine-Tuning (SFT)
- Überwacht (Mensch schreibt ideale Antworten auf Prompts)
- RLHF / RLAIF / DPO
- Reinforcement Learning aus menschlichem (oder KI-) Feedback
- DPO: Direct Preference Optimization
Datenverständnis
- Sammeln der Daten
- Beschaffen der in den Projektressourcen aufgeführten Daten
- Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
- Daten beschreiben
- Erkennen wie jedes einzelne Feature aussieht
- In welchem Format sind die Daten?
- Wie viele Daten habe ich, wie gross ist der Datensatz?
- Daten erkunden
- Wie sind die Daten verteilt?
- Gibt es Beziehungen zwischen den Daten?
- Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
- Datenexplorationsbericht erstellen
- Datenqualität prüfen
- Sind die Daten vollständig?
- Datenqualitätsbericht erstellen
EDA: Ziele und Methoden
- Mustererkennung
- Datenbereinigung
- Visualisierung
- Hypothesengenerierung
EDA: Explorative Datenanalyse
- Anomalien
- Ausreisser, Datenpunkte die stark von der Norm abweichen
- Mögliche Anomalien
- Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
- Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
- Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
- mögliche Anomalien nach Variablenart
- nicht numberische Daten
- fehlende Werte
- Duplikate
- Kategorien Variablen
- hohe Kardinalität (viele eindeutige Werte)
- nicht balancierte Daten
- numberische Variablen
- schiefe Verteilung
- Ausreisser
- Korrelationen
- diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)
- nicht numberische Daten
Klassierung
Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.
- Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
- Vorgehen: Festlegung von Klassengrenzen
- Datstellung: Histogramme
- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind
Aufbau eines Data Frames
- Objekte / Beobachtungen sind in den Zeilen (rows)
- Merkmale / Attribute sind in den Spalten (columns) angegeben
- Spalten enthalten sprechende Namen, über welche sie angesprochen werden können
- pro Spalte ist ein Datentyp festgelegt, unterschiedliche Spalten können aber unterschiedliche Typen aufweisen
Workshop 1
Nominal
Das ist eine reine Kategorisierung. Werte sind nur Labels ohne jede Ordnung. Du kannst sagen "Rot ≠ Blau", aber nicht "Rot > Blau".
- Was geht:
- Gleichheit prüfen (= oder ≠)
- Was nicht geht:
- Reihenfolge
- Abstände
- Rechnen
- Beispiele:
- Geschlecht
- Postleitzahl
- Häusertyp (h/u/t im Melbourne-Dataset)
- Programmiersprache
- MAC-Adresse
- Sinnvolle Statistik:
- Modus
- Häufigkeiten
- Chi-Quadrat
- Mittelwert ist Unsinn ("durchschnittliche Postleitzahl"...)
- Stolperfalle:
- Wenn Kategorien als Zahlen codiert sind (z.B. Postcode = 3000), sieht's numerisch aus, ist aber nominal. Pandas wird's als int einlesen – die Klassifikation musst du selbst machen.
Ordinal
Ordnung ohne definierte Abstände. Du kannst Werte in eine sinnvolle Reihenfolge bringen, aber die Abstände dazwischen sind nicht definiert oder nicht gleich.
- Was geht:
- Gleichheit + Reihenfolge (<, >)
- Was nicht geht:
- Abstände interpretieren
- Rechnen
- Beispiele:
- Schulnoten (ist der Abstand zwischen 4 und 5 derselbe wie zwischen 5 und 6? Nicht wirklich)
- Likert-Skalen ("stimme zu" bis "stimme nicht zu")
- Militärränge
- T-Shirt-Grössen (S/M/L/XL)
- Bildungsabschluss.
- Sinnvolle Statistik:
- Median
- Quantile
- Rangkorrelationen (Spearman)
- Stolperfalle:
- Likert-Skalen werden in der Praxis ständig wie metrische Daten behandelt (Mittelwert von "3.7 auf 5er-Skala") – formal falsch, aber pragmatisch verbreitet. Eine Dauerdebatte in der Sozialforschung.
Metrisch
Echte Zahlen mit definierten Abständen
- Was geht:
- Alles bisherige
- Abstände und Verhältnisse berechnen
- Hier wird's manchmal weiter unterteilt:
- Intervall: gleiche Abstände, aber kein echter Nullpunkt. Verhältnisse sind sinnlos. Beispiel: Temperatur in °C – 20°C ist nicht "doppelt so warm" wie 10°C, weil der Nullpunkt willkürlich gesetzt ist. Andere Beispiele: Kalenderjahre, IQ.
- Ratio (Verhältnis): gleiche Abstände plus echter Nullpunkt. Verhältnisse sind sinnvoll. Beispiel: Preis (0 € heisst tatsächlich "nichts"), Länge, Gewicht, Anzahl Zimmer.
- Sinnvolle Statistik:
- Mittelwert
- Standardabweichung
- Pearson-Korrelation
- alle parametrischen Tests
Ergebnisse
Nr. Cholumn Dtype nominal ordinal metrisch
0 Unnamed:0 int64 x
1 Suburb object x
2 Address object x
3 Rooms int64 x
4 Type object x
5 Price float64 x
6 Method object x
7 SellerG object x
8 Date object x x
9 Distance float64 x
10 Postcode float64 x
11 Bedroom2 float64 x
12 Bathroom float64 x
13 Car float64 x
14 Landsize float64 x
15 BuildingArea float64 x
16 YearBuilt float64 x x
17 CouncilArea object x
18 Lattitude float64 x
19 Longtitude float64 x
20 Regionname object x
21 Propertycount float64 x