Files

75 lines
2.0 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Workshop 1 Skalenniveaus im Melbourne Housing Dataset
## Aufgabenstellung
Untersuchung der Variablen des Melbourne Housing Datasets (`melb_data.csv`)
auf vorliegende Skalenniveaus:
- **kategorial** (nominal / ordinal)
- **metrisch** (intervall / ratio)
### Anforderungen
- Tabellarische Zusammenstellung mit einem Tool eigener Wahl,
erweiterbar für folgende Workshops
- Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen)
- Daten optional direkt mit Python sichten
### Zeitrahmen
30 Minuten
## Vorgehen
1. Daten laden und erste Sichtung (`df.info()`, `df.head()`, `df.describe()`, `df.nunique()`)
2. Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung
3. Online-Doku abgleichen, Diskrepanzen notieren
4. Tabelle exportieren (CSV / Markdown)
## Theorie Skalenniveaus
| Niveau | Operationen | Beispiel | Statistik |
|---|---|---|---|
| **Nominal** | =, ≠ | Suburb, Type | Modus, Häufigkeiten |
| **Ordinal** | + <, > | Schulnoten, Likert | Median, Quantile |
| **Intervall** | + Abstände | Temperatur °C, Datum | Mittelwert, SD |
| **Ratio** | + Verhältnisse (echter Nullpunkt) | Preis, Anzahl Zimmer | alle parametrischen Tests |
Hierarchie: `nominal ⊂ ordinal ⊂ intervall ⊂ ratio`
### Entscheidungshilfe
1. Kannst du sinnvoll mitteln? → metrisch
2. Falls nein: Kannst du sinnvoll sortieren? → ordinal
3. Falls nein: → nominal
## Struktur
```
.
├── devenv.nix
├── devenv.lock
├── devenv.yaml
├── data/
│ └── melb_data.csv
└── notebooks/
└── 01_skalenniveaus.md
```
## Libraries
Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7):
| Library | Alias | Version |
|---|---|---|
| numpy | np | 1.26.4 |
| pandas | pd | 2.1.4 |
| matplotlib.pyplot | plt | 3.7.5 |
| seaborn | sns | 0.12.2 |
| ydata-profiling | --- | 4.8.3 |
| scikit-learn | sklearn | 1.4.2 |
| imbalanced-learn | imblearn | 0.12.2 |
| statsmodels | stat | 0.14.0 |
Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.