cas-pml/SL/aufgaben/workshop1/README.md

# Workshop 1 – Skalenniveaus im Melbourne Housing Dataset

## Aufgabenstellung

Untersuchung der Variablen des Melbourne Housing Datasets (`melb_data.csv`)
auf vorliegende Skalenniveaus:

- **kategorial** (nominal / ordinal)
- **metrisch** (intervall / ratio)

### Anforderungen

- Tabellarische Zusammenstellung mit einem Tool eigener Wahl,
  erweiterbar für folgende Workshops
- Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen)
- Daten optional direkt mit Python sichten

### Zeitrahmen

30 Minuten

## Vorgehen

1. Daten laden und erste Sichtung (`df.info()`, `df.head()`, `df.describe()`, `df.nunique()`)
2. Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung
3. Online-Doku abgleichen, Diskrepanzen notieren
4. Tabelle exportieren (CSV / Markdown)

## Theorie – Skalenniveaus

| Niveau | Operationen | Beispiel | Statistik |
|---|---|---|---|
| **Nominal** | =, ≠ | Suburb, Type | Modus, Häufigkeiten |
| **Ordinal** | + <, > | Schulnoten, Likert | Median, Quantile |
| **Intervall** | + Abstände | Temperatur °C, Datum | Mittelwert, SD |
| **Ratio** | + Verhältnisse (echter Nullpunkt) | Preis, Anzahl Zimmer | alle parametrischen Tests |

Hierarchie: `nominal ⊂ ordinal ⊂ intervall ⊂ ratio`

### Entscheidungshilfe

1. Kannst du sinnvoll mitteln? → metrisch
2. Falls nein: Kannst du sinnvoll sortieren? → ordinal
3. Falls nein: → nominal

## Struktur

```
.
├── devenv.nix
├── devenv.lock
├── devenv.yaml
├── data/
│   └── melb_data.csv
└── notebooks/
    └── 01_skalenniveaus.md
```

## Libraries

Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7):

| Library | Alias | Version |
|---|---|---|
| numpy | np | 1.26.4 |
| pandas | pd | 2.1.4 |
| matplotlib.pyplot | plt | 3.7.5 |
| seaborn | sns | 0.12.2 |
| ydata-profiling | --- | 4.8.3 |
| scikit-learn | sklearn | 1.4.2 |
| imbalanced-learn | imblearn | 0.12.2 |
| statsmodels | stat | 0.14.0 |

Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.