From 2e9c1a3a230c02d660f37c393559a3556d480ea9 Mon Sep 17 00:00:00 2001 From: aaron Date: Thu, 21 May 2026 13:48:12 +0200 Subject: [PATCH] feature: add result from workshop 1 --- SL/notizen/L2_Notizen.md | 98 ++++++++++++++++++++++++++++++++++++++++ 1 file changed, 98 insertions(+) diff --git a/SL/notizen/L2_Notizen.md b/SL/notizen/L2_Notizen.md index a70c910..3fff89e 100644 --- a/SL/notizen/L2_Notizen.md +++ b/SL/notizen/L2_Notizen.md @@ -81,3 +81,101 @@ Rohdaten in wenige, überschaubare Klassen (Intervalle) ein. - Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind +# Aufbau eines Data Frames + +- Objekte / Beobachtungen sind in den Zeilen (rows) +- Merkmale / Attribute sind in den Spalten (columns) angegeben +- Spalten enthalten sprechende Namen, über welche sie +angesprochen werden können +- pro Spalte ist ein Datentyp festgelegt, unterschiedliche Spalten können aber +unterschiedliche Typen aufweisen + +## Workshop 1 + +### Nominal + +> Das ist eine reine Kategorisierung. Werte sind nur Labels ohne jede Ordnung. Du kannst sagen "Rot ≠ Blau", aber nicht "Rot > Blau". + +- Was geht: + - Gleichheit prüfen (= oder ≠) +- Was nicht geht: + - Reihenfolge + - Abstände + - Rechnen +- Beispiele: + - Geschlecht + - Postleitzahl + - Häusertyp (h/u/t im Melbourne-Dataset) + - Programmiersprache + - MAC-Adresse +- Sinnvolle Statistik: + - Modus + - Häufigkeiten + - Chi-Quadrat + - Mittelwert ist Unsinn ("durchschnittliche Postleitzahl"...) +- Stolperfalle: + - Wenn Kategorien als Zahlen codiert sind (z.B. Postcode = 3000), sieht's numerisch aus, ist aber nominal. Pandas wird's als int einlesen – die Klassifikation musst du selbst machen. + +### Ordinal + +> Ordnung ohne definierte Abstände. Du kannst Werte in eine sinnvolle Reihenfolge bringen, aber die Abstände dazwischen sind nicht definiert oder nicht gleich. + +- Was geht: + - Gleichheit + Reihenfolge (<, >) +- Was nicht geht: + - Abstände interpretieren + - Rechnen +- Beispiele: + - Schulnoten (ist der Abstand zwischen 4 und 5 derselbe wie zwischen 5 und 6? Nicht wirklich) + - Likert-Skalen ("stimme zu" bis "stimme nicht zu") + - Militärränge + - T-Shirt-Grössen (S/M/L/XL) + - Bildungsabschluss. +- Sinnvolle Statistik: + - Median + - Quantile + - Rangkorrelationen (Spearman) +- Stolperfalle: + - Likert-Skalen werden in der Praxis ständig wie metrische Daten behandelt (Mittelwert von "3.7 auf 5er-Skala") – formal falsch, aber pragmatisch verbreitet. Eine Dauerdebatte in der Sozialforschung. + +### Metrisch + +> Echte Zahlen mit definierten Abständen + +- Was geht: + - Alles bisherige + - Abstände und Verhältnisse berechnen +- Hier wird's manchmal weiter unterteilt: + - Intervall: gleiche Abstände, aber kein echter Nullpunkt. Verhältnisse sind sinnlos. Beispiel: Temperatur in °C – 20°C ist nicht "doppelt so warm" wie 10°C, weil der Nullpunkt willkürlich gesetzt ist. Andere Beispiele: Kalenderjahre, IQ. + - Ratio (Verhältnis): gleiche Abstände plus echter Nullpunkt. Verhältnisse sind sinnvoll. Beispiel: Preis (0 € heisst tatsächlich "nichts"), Länge, Gewicht, Anzahl Zimmer. +- Sinnvolle Statistik: + - Mittelwert + - Standardabweichung + - Pearson-Korrelation + - alle parametrischen Tests + +### Ergebnisse + +Nr. Cholumn Dtype nominal ordinal metrisch +0 Unnamed:0 int64 x +1 Suburb object x +2 Address object x +3 Rooms int64 x +4 Type object x +5 Price float64 x +6 Method object x +7 SellerG object x +8 Date object x x +9 Distance float64 x +10 Postcode float64 x +11 Bedroom2 float64 x +12 Bathroom float64 x +13 Car float64 x +14 Landsize float64 x +15 BuildingArea float64 x +16 YearBuilt float64 x x +17 CouncilArea object x +18 Lattitude float64 x +19 Longtitude float64 x +20 Regionname object x +21 Propertycount float64 x