# Workshop 1 – Skalenniveaus im Melbourne Housing Dataset ## Aufgabenstellung Untersuchung der Variablen des Melbourne Housing Datasets (`melb_data.csv`) auf vorliegende Skalenniveaus: - **kategorial** (nominal / ordinal) - **metrisch** (intervall / ratio) ### Anforderungen - Tabellarische Zusammenstellung mit einem Tool eigener Wahl, erweiterbar für folgende Workshops - Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen) - Daten optional direkt mit Python sichten ### Zeitrahmen 30 Minuten ## Vorgehen 1. Daten laden und erste Sichtung (`df.info()`, `df.head()`, `df.describe()`, `df.nunique()`) 2. Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung 3. Online-Doku abgleichen, Diskrepanzen notieren 4. Tabelle exportieren (CSV / Markdown) ## Theorie – Skalenniveaus | Niveau | Operationen | Beispiel | Statistik | |---|---|---|---| | **Nominal** | =, ≠ | Suburb, Type | Modus, Häufigkeiten | | **Ordinal** | + <, > | Schulnoten, Likert | Median, Quantile | | **Intervall** | + Abstände | Temperatur °C, Datum | Mittelwert, SD | | **Ratio** | + Verhältnisse (echter Nullpunkt) | Preis, Anzahl Zimmer | alle parametrischen Tests | Hierarchie: `nominal ⊂ ordinal ⊂ intervall ⊂ ratio` ### Entscheidungshilfe 1. Kannst du sinnvoll mitteln? → metrisch 2. Falls nein: Kannst du sinnvoll sortieren? → ordinal 3. Falls nein: → nominal ## Struktur ``` . ├── devenv.nix ├── devenv.lock ├── devenv.yaml ├── data/ │ └── melb_data.csv └── notebooks/ └── 01_skalenniveaus.md ``` ## Libraries Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7): | Library | Alias | Version | |---|---|---| | numpy | np | 1.26.4 | | pandas | pd | 2.1.4 | | matplotlib.pyplot | plt | 3.7.5 | | seaborn | sns | 0.12.2 | | ydata-profiling | --- | 4.8.3 | | scikit-learn | sklearn | 1.4.2 | | imbalanced-learn | imblearn | 0.12.2 | | statsmodels | stat | 0.14.0 | Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.