refactor: move things around

This commit is contained in:
2026-05-21 14:16:30 +02:00
parent 2fce3281a3
commit 41e15ed275
124 changed files with 404226 additions and 0 deletions
+72
View File
@@ -0,0 +1,72 @@
# Workshop 1 Skalenniveaus im Melbourne Housing Dataset
## Aufgabenstellung
Untersuchung der Variablen des Melbourne Housing Datasets (`melb_data.csv`)
auf vorliegende Skalenniveaus:
- **kategorial** (nominal / ordinal)
- **metrisch** (intervall / ratio)
### Anforderungen
- Tabellarische Zusammenstellung mit einem Tool eigener Wahl,
erweiterbar für folgende Workshops
- Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen)
- Daten optional direkt mit Python sichten
### Zeitrahmen
30 Minuten
## Vorgehen
1. Daten laden und erste Sichtung (`df.info()`, `df.head()`, `df.describe()`, `df.nunique()`)
2. Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung
3. Online-Doku abgleichen, Diskrepanzen notieren
4. Tabelle exportieren (CSV / Markdown)
## Theorie Skalenniveaus
| Niveau | Operationen | Beispiel | Statistik |
|---|---|---|---|
| **Nominal** | =, ≠ | Suburb, Type | Modus, Häufigkeiten |
| **Ordinal** | + <, > | Schulnoten, Likert | Median, Quantile |
| **Intervall** | + Abstände | Temperatur °C, Datum | Mittelwert, SD |
| **Ratio** | + Verhältnisse (echter Nullpunkt) | Preis, Anzahl Zimmer | alle parametrischen Tests |
Hierarchie: `nominal ⊂ ordinal ⊂ intervall ⊂ ratio`
### Entscheidungshilfe
1. Kannst du sinnvoll mitteln? → metrisch
2. Falls nein: Kannst du sinnvoll sortieren? → ordinal
3. Falls nein: → nominal
## Struktur
```
.
├── devenv.nix
├── data/
│ └── melb_data.csv
└── notebooks/
└── 01_skalenniveaus.ipynb
```
## Libraries
Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7):
| Library | Alias | Version |
|---|---|---|
| numpy | np | 1.26.4 |
| pandas | pd | 2.1.4 |
| matplotlib.pyplot | plt | 3.7.5 |
| seaborn | sns | 0.12.2 |
| ydata-profiling | --- | 4.8.3 |
| scikit-learn | sklearn | 1.4.2 |
| imbalanced-learn | imblearn | 0.12.2 |
| statsmodels | stat | 0.14.0 |
Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.