refactor: move things around
This commit is contained in:
@@ -0,0 +1,72 @@
|
||||
# Workshop 1 – Skalenniveaus im Melbourne Housing Dataset
|
||||
|
||||
## Aufgabenstellung
|
||||
|
||||
Untersuchung der Variablen des Melbourne Housing Datasets (`melb_data.csv`)
|
||||
auf vorliegende Skalenniveaus:
|
||||
|
||||
- **kategorial** (nominal / ordinal)
|
||||
- **metrisch** (intervall / ratio)
|
||||
|
||||
### Anforderungen
|
||||
|
||||
- Tabellarische Zusammenstellung mit einem Tool eigener Wahl,
|
||||
erweiterbar für folgende Workshops
|
||||
- Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen)
|
||||
- Daten optional direkt mit Python sichten
|
||||
|
||||
### Zeitrahmen
|
||||
|
||||
30 Minuten
|
||||
|
||||
## Vorgehen
|
||||
|
||||
1. Daten laden und erste Sichtung (`df.info()`, `df.head()`, `df.describe()`, `df.nunique()`)
|
||||
2. Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung
|
||||
3. Online-Doku abgleichen, Diskrepanzen notieren
|
||||
4. Tabelle exportieren (CSV / Markdown)
|
||||
|
||||
## Theorie – Skalenniveaus
|
||||
|
||||
| Niveau | Operationen | Beispiel | Statistik |
|
||||
|---|---|---|---|
|
||||
| **Nominal** | =, ≠ | Suburb, Type | Modus, Häufigkeiten |
|
||||
| **Ordinal** | + <, > | Schulnoten, Likert | Median, Quantile |
|
||||
| **Intervall** | + Abstände | Temperatur °C, Datum | Mittelwert, SD |
|
||||
| **Ratio** | + Verhältnisse (echter Nullpunkt) | Preis, Anzahl Zimmer | alle parametrischen Tests |
|
||||
|
||||
Hierarchie: `nominal ⊂ ordinal ⊂ intervall ⊂ ratio`
|
||||
|
||||
### Entscheidungshilfe
|
||||
|
||||
1. Kannst du sinnvoll mitteln? → metrisch
|
||||
2. Falls nein: Kannst du sinnvoll sortieren? → ordinal
|
||||
3. Falls nein: → nominal
|
||||
|
||||
## Struktur
|
||||
|
||||
```
|
||||
.
|
||||
├── devenv.nix
|
||||
├── data/
|
||||
│ └── melb_data.csv
|
||||
└── notebooks/
|
||||
└── 01_skalenniveaus.ipynb
|
||||
```
|
||||
|
||||
## Libraries
|
||||
|
||||
Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7):
|
||||
|
||||
| Library | Alias | Version |
|
||||
|---|---|---|
|
||||
| numpy | np | 1.26.4 |
|
||||
| pandas | pd | 2.1.4 |
|
||||
| matplotlib.pyplot | plt | 3.7.5 |
|
||||
| seaborn | sns | 0.12.2 |
|
||||
| ydata-profiling | --- | 4.8.3 |
|
||||
| scikit-learn | sklearn | 1.4.2 |
|
||||
| imbalanced-learn | imblearn | 0.12.2 |
|
||||
| statsmodels | stat | 0.14.0 |
|
||||
|
||||
Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.
|
||||
Reference in New Issue
Block a user