feature: add result from workshop 1

This commit is contained in:
2026-05-21 13:48:12 +02:00
parent fd0dc3cdf0
commit 2e9c1a3a23
+98
View File
@@ -81,3 +81,101 @@ Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.
- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind
# Aufbau eines Data Frames
- Objekte / Beobachtungen sind in den Zeilen (rows)
- Merkmale / Attribute sind in den Spalten (columns) angegeben
- Spalten enthalten sprechende Namen, über welche sie
angesprochen werden können
- pro Spalte ist ein Datentyp festgelegt, unterschiedliche Spalten können aber
unterschiedliche Typen aufweisen
## Workshop 1
### Nominal
> Das ist eine reine Kategorisierung. Werte sind nur Labels ohne jede Ordnung. Du kannst sagen "Rot ≠ Blau", aber nicht "Rot > Blau".
- Was geht:
- Gleichheit prüfen (= oder ≠)
- Was nicht geht:
- Reihenfolge
- Abstände
- Rechnen
- Beispiele:
- Geschlecht
- Postleitzahl
- Häusertyp (h/u/t im Melbourne-Dataset)
- Programmiersprache
- MAC-Adresse
- Sinnvolle Statistik:
- Modus
- Häufigkeiten
- Chi-Quadrat
- Mittelwert ist Unsinn ("durchschnittliche Postleitzahl"...)
- Stolperfalle:
- Wenn Kategorien als Zahlen codiert sind (z.B. Postcode = 3000), sieht's numerisch aus, ist aber nominal. Pandas wird's als int einlesen die Klassifikation musst du selbst machen.
### Ordinal
> Ordnung ohne definierte Abstände. Du kannst Werte in eine sinnvolle Reihenfolge bringen, aber die Abstände dazwischen sind nicht definiert oder nicht gleich.
- Was geht:
- Gleichheit + Reihenfolge (<, >)
- Was nicht geht:
- Abstände interpretieren
- Rechnen
- Beispiele:
- Schulnoten (ist der Abstand zwischen 4 und 5 derselbe wie zwischen 5 und 6? Nicht wirklich)
- Likert-Skalen ("stimme zu" bis "stimme nicht zu")
- Militärränge
- T-Shirt-Grössen (S/M/L/XL)
- Bildungsabschluss.
- Sinnvolle Statistik:
- Median
- Quantile
- Rangkorrelationen (Spearman)
- Stolperfalle:
- Likert-Skalen werden in der Praxis ständig wie metrische Daten behandelt (Mittelwert von "3.7 auf 5er-Skala") formal falsch, aber pragmatisch verbreitet. Eine Dauerdebatte in der Sozialforschung.
### Metrisch
> Echte Zahlen mit definierten Abständen
- Was geht:
- Alles bisherige
- Abstände und Verhältnisse berechnen
- Hier wird's manchmal weiter unterteilt:
- Intervall: gleiche Abstände, aber kein echter Nullpunkt. Verhältnisse sind sinnlos. Beispiel: Temperatur in °C 20°C ist nicht "doppelt so warm" wie 10°C, weil der Nullpunkt willkürlich gesetzt ist. Andere Beispiele: Kalenderjahre, IQ.
- Ratio (Verhältnis): gleiche Abstände plus echter Nullpunkt. Verhältnisse sind sinnvoll. Beispiel: Preis (0 € heisst tatsächlich "nichts"), Länge, Gewicht, Anzahl Zimmer.
- Sinnvolle Statistik:
- Mittelwert
- Standardabweichung
- Pearson-Korrelation
- alle parametrischen Tests
### Ergebnisse
Nr. Cholumn Dtype nominal ordinal metrisch
0 Unnamed:0 int64 x
1 Suburb object x
2 Address object x
3 Rooms int64 x
4 Type object x
5 Price float64 x
6 Method object x
7 SellerG object x
8 Date object x x
9 Distance float64 x
10 Postcode float64 x
11 Bedroom2 float64 x
12 Bathroom float64 x
13 Car float64 x
14 Landsize float64 x
15 BuildingArea float64 x
16 YearBuilt float64 x x
17 CouncilArea object x
18 Lattitude float64 x
19 Longtitude float64 x
20 Regionname object x
21 Propertycount float64 x