Workshop 1 – Skalenniveaus im Melbourne Housing Dataset
Aufgabenstellung
Untersuchung der Variablen des Melbourne Housing Datasets (melb_data.csv)
auf vorliegende Skalenniveaus:
- kategorial (nominal / ordinal)
- metrisch (intervall / ratio)
Anforderungen
- Tabellarische Zusammenstellung mit einem Tool eigener Wahl, erweiterbar für folgende Workshops
- Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen)
- Daten optional direkt mit Python sichten
Zeitrahmen
30 Minuten
Vorgehen
- Daten laden und erste Sichtung (
df.info(),df.head(),df.describe(),df.nunique()) - Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung
- Online-Doku abgleichen, Diskrepanzen notieren
- Tabelle exportieren (CSV / Markdown)
Theorie – Skalenniveaus
| Niveau | Operationen | Beispiel | Statistik |
|---|---|---|---|
| Nominal | =, ≠ | Suburb, Type | Modus, Häufigkeiten |
| Ordinal | + <, > | Schulnoten, Likert | Median, Quantile |
| Intervall | + Abstände | Temperatur °C, Datum | Mittelwert, SD |
| Ratio | + Verhältnisse (echter Nullpunkt) | Preis, Anzahl Zimmer | alle parametrischen Tests |
Hierarchie: nominal ⊂ ordinal ⊂ intervall ⊂ ratio
Entscheidungshilfe
- Kannst du sinnvoll mitteln? → metrisch
- Falls nein: Kannst du sinnvoll sortieren? → ordinal
- Falls nein: → nominal
Struktur
.
├── devenv.nix
├── devenv.lock
├── devenv.yaml
├── data/
│ └── melb_data.csv
└── notebooks/
└── 01_skalenniveaus.md
Libraries
Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7):
| Library | Alias | Version |
|---|---|---|
| numpy | np | 1.26.4 |
| pandas | pd | 2.1.4 |
| matplotlib.pyplot | plt | 3.7.5 |
| seaborn | sns | 0.12.2 |
| ydata-profiling | --- | 4.8.3 |
| scikit-learn | sklearn | 1.4.2 |
| imbalanced-learn | imblearn | 0.12.2 |
| statsmodels | stat | 0.14.0 |
Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.