feature: add result from workshop 1

2026-05-21 13:48:12 +02:00
parent fd0dc3cdf0
commit 2e9c1a3a23
1 changed files with 98 additions and 0 deletions
@@ -81,3 +81,101 @@ Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.
 - Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind


+# Aufbau eines Data Frames
+
+- Objekte / Beobachtungen sind in den Zeilen (rows)
+- Merkmale / Attribute sind in den Spalten (columns) angegeben
+- Spalten enthalten sprechende Namen, über welche sie 
+angesprochen werden können
+- pro Spalte ist ein Datentyp festgelegt, unterschiedliche Spalten können aber 
+unterschiedliche Typen aufweisen
+
+## Workshop 1
+
+### Nominal
+
+> Das ist eine reine Kategorisierung. Werte sind nur Labels ohne jede Ordnung. Du kannst sagen "Rot ≠ Blau", aber nicht "Rot > Blau".
+
+- Was geht:
+    - Gleichheit prüfen (= oder ≠)
+- Was nicht geht: 
+    - Reihenfolge
+    - Abstände
+    - Rechnen
+- Beispiele:
+    - Geschlecht
+    - Postleitzahl
+    - Häusertyp (h/u/t im Melbourne-Dataset)
+    - Programmiersprache
+    - MAC-Adresse
+- Sinnvolle Statistik:
+    - Modus
+    - Häufigkeiten
+    - Chi-Quadrat
+    - Mittelwert ist Unsinn ("durchschnittliche Postleitzahl"...)
+- Stolperfalle: 
+     - Wenn Kategorien als Zahlen codiert sind (z.B. Postcode = 3000), sieht's numerisch aus, ist aber nominal. Pandas wird's als int einlesen – die Klassifikation musst du selbst machen.
+
+### Ordinal
+
+> Ordnung ohne definierte Abstände. Du kannst Werte in eine sinnvolle Reihenfolge bringen, aber die Abstände dazwischen sind nicht definiert oder nicht gleich.
+
+- Was geht:
+    - Gleichheit + Reihenfolge (<, >)
+- Was nicht geht:
+    - Abstände interpretieren
+    - Rechnen
+- Beispiele: 
+    - Schulnoten (ist der Abstand zwischen 4 und 5 derselbe wie zwischen 5 und 6? Nicht wirklich)
+    - Likert-Skalen ("stimme zu" bis "stimme nicht zu")
+    - Militärränge
+    - T-Shirt-Grössen (S/M/L/XL)
+    - Bildungsabschluss.
+- Sinnvolle Statistik:
+    - Median
+    - Quantile
+    - Rangkorrelationen (Spearman)
+- Stolperfalle:
+    - Likert-Skalen werden in der Praxis ständig wie metrische Daten behandelt (Mittelwert von "3.7 auf 5er-Skala") – formal falsch, aber pragmatisch verbreitet. Eine Dauerdebatte in der Sozialforschung.
+
+### Metrisch
+
+> Echte Zahlen mit definierten Abständen
+
+- Was geht:
+    - Alles bisherige
+    - Abstände und Verhältnisse berechnen
+- Hier wird's manchmal weiter unterteilt:
+    - Intervall: gleiche Abstände, aber kein echter Nullpunkt. Verhältnisse sind sinnlos. Beispiel: Temperatur in °C – 20°C ist nicht "doppelt so warm" wie 10°C, weil der Nullpunkt willkürlich gesetzt ist. Andere Beispiele: Kalenderjahre, IQ.
+    - Ratio (Verhältnis): gleiche Abstände plus echter Nullpunkt. Verhältnisse sind sinnvoll. Beispiel: Preis (0 € heisst tatsächlich "nichts"), Länge, Gewicht, Anzahl Zimmer.
+- Sinnvolle Statistik:
+    - Mittelwert
+    - Standardabweichung
+    - Pearson-Korrelation
+    - alle parametrischen Tests
+
+### Ergebnisse
+
+Nr.  Cholumn	    Dtype	nominal	ordinal	metrisch
+0	 Unnamed:0	    int64	 	 	        x
+1	 Suburb	        object	x	 	 
+2	 Address	    object	x	 	 
+3	 Rooms	        int64	 	 	        x
+4	 Type	        object	x	 	         
+5	 Price	        float64	 	 	        x
+6	 Method	        object	x	 	         
+7	 SellerG	    object	x	 	         
+8	 Date	        object	 	    x       x
+9	 Distance	    float64	 	 	        x
+10	 Postcode	    float64	x	 	         
+11	 Bedroom2	    float64	 	 	        x
+12	 Bathroom	    float64	 	 	        x
+13	 Car	        float64	 	 	        x
+14	 Landsize	    float64	 	 	        x
+15	 BuildingArea	float64	 	 	        x
+16	 YearBuilt	    float64	 	    x       x
+17	 CouncilArea	object	x	 	         
+18	 Lattitude	    float64	 	 	        x
+19	 Longtitude	    float64	 	 	        x
+20	 Regionname	    object	x	 	         
+21	 Propertycount	float64	 	 	        x