75 lines
2.0 KiB
Markdown
75 lines
2.0 KiB
Markdown
# Workshop 1 – Skalenniveaus im Melbourne Housing Dataset
|
||
|
||
## Aufgabenstellung
|
||
|
||
Untersuchung der Variablen des Melbourne Housing Datasets (`melb_data.csv`)
|
||
auf vorliegende Skalenniveaus:
|
||
|
||
- **kategorial** (nominal / ordinal)
|
||
- **metrisch** (intervall / ratio)
|
||
|
||
### Anforderungen
|
||
|
||
- Tabellarische Zusammenstellung mit einem Tool eigener Wahl,
|
||
erweiterbar für folgende Workshops
|
||
- Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen)
|
||
- Daten optional direkt mit Python sichten
|
||
|
||
### Zeitrahmen
|
||
|
||
30 Minuten
|
||
|
||
## Vorgehen
|
||
|
||
1. Daten laden und erste Sichtung (`df.info()`, `df.head()`, `df.describe()`, `df.nunique()`)
|
||
2. Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung
|
||
3. Online-Doku abgleichen, Diskrepanzen notieren
|
||
4. Tabelle exportieren (CSV / Markdown)
|
||
|
||
## Theorie – Skalenniveaus
|
||
|
||
| Niveau | Operationen | Beispiel | Statistik |
|
||
|---|---|---|---|
|
||
| **Nominal** | =, ≠ | Suburb, Type | Modus, Häufigkeiten |
|
||
| **Ordinal** | + <, > | Schulnoten, Likert | Median, Quantile |
|
||
| **Intervall** | + Abstände | Temperatur °C, Datum | Mittelwert, SD |
|
||
| **Ratio** | + Verhältnisse (echter Nullpunkt) | Preis, Anzahl Zimmer | alle parametrischen Tests |
|
||
|
||
Hierarchie: `nominal ⊂ ordinal ⊂ intervall ⊂ ratio`
|
||
|
||
### Entscheidungshilfe
|
||
|
||
1. Kannst du sinnvoll mitteln? → metrisch
|
||
2. Falls nein: Kannst du sinnvoll sortieren? → ordinal
|
||
3. Falls nein: → nominal
|
||
|
||
## Struktur
|
||
|
||
```
|
||
.
|
||
├── devenv.nix
|
||
├── devenv.lock
|
||
├── devenv.yaml
|
||
├── data/
|
||
│ └── melb_data.csv
|
||
└── notebooks/
|
||
└── 01_skalenniveaus.md
|
||
```
|
||
|
||
## Libraries
|
||
|
||
Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7):
|
||
|
||
| Library | Alias | Version |
|
||
|---|---|---|
|
||
| numpy | np | 1.26.4 |
|
||
| pandas | pd | 2.1.4 |
|
||
| matplotlib.pyplot | plt | 3.7.5 |
|
||
| seaborn | sns | 0.12.2 |
|
||
| ydata-profiling | --- | 4.8.3 |
|
||
| scikit-learn | sklearn | 1.4.2 |
|
||
| imbalanced-learn | imblearn | 0.12.2 |
|
||
| statsmodels | stat | 0.14.0 |
|
||
|
||
Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.
|