Files
cas-pml/SL/aufgaben/workshop1

Workshop 1 Skalenniveaus im Melbourne Housing Dataset

Aufgabenstellung

Untersuchung der Variablen des Melbourne Housing Datasets (melb_data.csv) auf vorliegende Skalenniveaus:

  • kategorial (nominal / ordinal)
  • metrisch (intervall / ratio)

Anforderungen

  • Tabellarische Zusammenstellung mit einem Tool eigener Wahl, erweiterbar für folgende Workshops
  • Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen)
  • Daten optional direkt mit Python sichten

Zeitrahmen

30 Minuten

Vorgehen

  1. Daten laden und erste Sichtung (df.info(), df.head(), df.describe(), df.nunique())
  2. Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung
  3. Online-Doku abgleichen, Diskrepanzen notieren
  4. Tabelle exportieren (CSV / Markdown)

Theorie Skalenniveaus

Niveau Operationen Beispiel Statistik
Nominal =, ≠ Suburb, Type Modus, Häufigkeiten
Ordinal + <, > Schulnoten, Likert Median, Quantile
Intervall + Abstände Temperatur °C, Datum Mittelwert, SD
Ratio + Verhältnisse (echter Nullpunkt) Preis, Anzahl Zimmer alle parametrischen Tests

Hierarchie: nominal ⊂ ordinal ⊂ intervall ⊂ ratio

Entscheidungshilfe

  1. Kannst du sinnvoll mitteln? → metrisch
  2. Falls nein: Kannst du sinnvoll sortieren? → ordinal
  3. Falls nein: → nominal

Struktur

.
├── devenv.nix
├── devenv.lock
├── devenv.yaml
├── data/
│   └── melb_data.csv
└── notebooks/
    └── 01_skalenniveaus.md

Libraries

Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7):

Library Alias Version
numpy np 1.26.4
pandas pd 2.1.4
matplotlib.pyplot plt 3.7.5
seaborn sns 0.12.2
ydata-profiling --- 4.8.3
scikit-learn sklearn 1.4.2
imbalanced-learn imblearn 0.12.2
statsmodels stat 0.14.0

Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.