# Notizen SL Lektion 2 >Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering >Datum: 21.05.2026 >Dozentin: Violeta Vogel ## Überwachtes Lernen vs. Unüberwachtes Lernen - beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen - beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten ## Übungsaufgabe 1 > Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels) > für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment. 1. Pretraining - Self-Supervised (Next-Token-Prediction auf riesigen Text) - "Unsupervised" 2. Supervised Fine-Tuning (SFT) - Überwacht (Mensch schreibt ideale Antworten auf Prompts) 3. RLHF / RLAIF / DPO - Reinforcement Learning aus menschlichem (oder KI-) Feedback - DPO: Direct Preference Optimization ## Datenverständnis 1. Sammeln der Daten - Beschaffen der in den Projektressourcen aufgeführten Daten - Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden) 2. Daten beschreiben - Erkennen wie jedes einzelne Feature aussieht - In welchem Format sind die Daten? - Wie viele Daten habe ich, wie gross ist der Datensatz? 3. Daten erkunden - Wie sind die Daten verteilt? - Gibt es Beziehungen zwischen den Daten? - Müssen eventuell Bereinigungen oder Aggregationen gemacht werden? - Datenexplorationsbericht erstellen 4. Datenqualität prüfen - Sind die Daten vollständig? - Datenqualitätsbericht erstellen ## EDA: Ziele und Methoden - Mustererkennung - Datenbereinigung - Visualisierung - Hypothesengenerierung ## EDA: Explorative Datenanalyse - Anomalien - Ausreisser, Datenpunkte die stark von der Norm abweichen - Mögliche Anomalien - Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen - Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind - Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken - mögliche Anomalien nach Variablenart - nicht numberische Daten - fehlende Werte - Duplikate - Kategorien Variablen - hohe Kardinalität (viele eindeutige Werte) - nicht balancierte Daten - numberische Variablen - schiefe Verteilung - Ausreisser - Korrelationen - diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte) ## Klassierung > Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche Rohdaten in wenige, überschaubare Klassen (Intervalle) ein. - Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen) - Vorgehen: Festlegung von Klassengrenzen - Datstellung: Histogramme - Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind # Aufbau eines Data Frames - Objekte / Beobachtungen sind in den Zeilen (rows) - Merkmale / Attribute sind in den Spalten (columns) angegeben - Spalten enthalten sprechende Namen, über welche sie angesprochen werden können - pro Spalte ist ein Datentyp festgelegt, unterschiedliche Spalten können aber unterschiedliche Typen aufweisen ## Workshop 1 ### Nominal > Das ist eine reine Kategorisierung. Werte sind nur Labels ohne jede Ordnung. Du kannst sagen "Rot ≠ Blau", aber nicht "Rot > Blau". - Was geht: - Gleichheit prüfen (= oder ≠) - Was nicht geht: - Reihenfolge - Abstände - Rechnen - Beispiele: - Geschlecht - Postleitzahl - Häusertyp (h/u/t im Melbourne-Dataset) - Programmiersprache - MAC-Adresse - Sinnvolle Statistik: - Modus - Häufigkeiten - Chi-Quadrat - Mittelwert ist Unsinn ("durchschnittliche Postleitzahl"...) - Stolperfalle: - Wenn Kategorien als Zahlen codiert sind (z.B. Postcode = 3000), sieht's numerisch aus, ist aber nominal. Pandas wird's als int einlesen – die Klassifikation musst du selbst machen. ### Ordinal > Ordnung ohne definierte Abstände. Du kannst Werte in eine sinnvolle Reihenfolge bringen, aber die Abstände dazwischen sind nicht definiert oder nicht gleich. - Was geht: - Gleichheit + Reihenfolge (<, >) - Was nicht geht: - Abstände interpretieren - Rechnen - Beispiele: - Schulnoten (ist der Abstand zwischen 4 und 5 derselbe wie zwischen 5 und 6? Nicht wirklich) - Likert-Skalen ("stimme zu" bis "stimme nicht zu") - Militärränge - T-Shirt-Grössen (S/M/L/XL) - Bildungsabschluss. - Sinnvolle Statistik: - Median - Quantile - Rangkorrelationen (Spearman) - Stolperfalle: - Likert-Skalen werden in der Praxis ständig wie metrische Daten behandelt (Mittelwert von "3.7 auf 5er-Skala") – formal falsch, aber pragmatisch verbreitet. Eine Dauerdebatte in der Sozialforschung. ### Metrisch > Echte Zahlen mit definierten Abständen - Was geht: - Alles bisherige - Abstände und Verhältnisse berechnen - Hier wird's manchmal weiter unterteilt: - Intervall: gleiche Abstände, aber kein echter Nullpunkt. Verhältnisse sind sinnlos. Beispiel: Temperatur in °C – 20°C ist nicht "doppelt so warm" wie 10°C, weil der Nullpunkt willkürlich gesetzt ist. Andere Beispiele: Kalenderjahre, IQ. - Ratio (Verhältnis): gleiche Abstände plus echter Nullpunkt. Verhältnisse sind sinnvoll. Beispiel: Preis (0 € heisst tatsächlich "nichts"), Länge, Gewicht, Anzahl Zimmer. - Sinnvolle Statistik: - Mittelwert - Standardabweichung - Pearson-Korrelation - alle parametrischen Tests ### Ergebnisse Nr. Cholumn Dtype nominal ordinal metrisch 0 Unnamed:0 int64 x 1 Suburb object x 2 Address object x 3 Rooms int64 x 4 Type object x 5 Price float64 x 6 Method object x 7 SellerG object x 8 Date object x x 9 Distance float64 x 10 Postcode float64 x 11 Bedroom2 float64 x 12 Bathroom float64 x 13 Car float64 x 14 Landsize float64 x 15 BuildingArea float64 x 16 YearBuilt float64 x x 17 CouncilArea object x 18 Lattitude float64 x 19 Longtitude float64 x 20 Regionname object x 21 Propertycount float64 x