refactor: turn workshop 1 into its own structure

This commit is contained in:
2026-05-21 14:25:57 +02:00
parent 41e15ed275
commit 414c248549
5 changed files with 185 additions and 1 deletions
@@ -0,0 +1,46 @@
# Workshop 1 Skalenniveaus Melbourne Housing Dataset
## Klassifikation der Variablen
| # | Spalte | Dtype | Skalenniveau | Bemerkung |
|---|---|---|---|---|
| 0 | Unnamed: 0 | int64 | nominal | CSV-Index, reine ID für ML droppen |
| 1 | Suburb | object | nominal | hohe Kardinalität, Encoding-Strategie nötig |
| 2 | Address | object | nominal | Kardinalität ≈ n, für ML ungeeignet |
| 3 | Rooms | int64 | metrisch | Zähldaten, Ratio-Skala |
| 4 | Type | object | nominal | h/u/t wenige Kategorien, One-Hot |
| 5 | Price | float64 | metrisch | Ratio-Skala, typische Zielvariable |
| 6 | Method | object | nominal | Verkaufsmethode |
| 7 | SellerG | object | nominal | hohe Kardinalität |
| 8 | Date | object | metrisch | formal Intervall, dtype sollte datetime sein |
| 9 | Distance | float64 | metrisch | Distanz zum CBD, Ratio |
| 10 | Postcode | float64 | nominal | trotz numerisch keine sinnvolle Ordnung |
| 11 | Bedroom2 | float64 | metrisch | Zähldaten, alternative Quelle zu Rooms |
| 12 | Bathroom | float64 | metrisch | Zähldaten |
| 13 | Car | float64 | metrisch | Anzahl Parkplätze |
| 14 | Landsize | float64 | metrisch | Ratio-Skala |
| 15 | BuildingArea | float64 | metrisch | Ratio-Skala |
| 16 | YearBuilt | float64 | metrisch | formal Intervall |
| 17 | CouncilArea | object | nominal | Verwaltungsbezirk |
| 18 | Lattitude | float64 | metrisch | formal Intervall, mit Longitude als Paar behandeln |
| 19 | Longtitude | float64 | metrisch | formal Intervall, mit Latitude als Paar behandeln |
| 20 | Regionname | object | nominal | wenige Kategorien |
| 21 | Propertycount | float64 | metrisch | Anzahl Properties im Suburb |
## Anmerkungen
- `Date` und `YearBuilt` sind formal Intervallskala (kein echter Nullpunkt),
werden hier aber zu metrisch zusammengefasst, da die Klasse Intervall/Ratio
nicht weiter unterscheidet.
- `Postcode` ist trotz `float64`-dtype nominal Postleitzahlen haben keine
sinnvolle Ordnung. Float entsteht durch Missing Values.
- Geokoordinaten passen streng genommen nicht ins Stevens-Schema
(zyklisch, nicht-euklidisch), werden pragmatisch als metrisch geführt.
- `Address` und `SellerG` haben sehr hohe Kardinalität → Kandidaten für die
Liste ungeeigneter Variablen in Workshop 2.
## Online-Doku-Abgleich
Quelle: <https://www.kaggle.com/datasets/dansbecker/melbourne-housing-snapshot>
Konsistenz-Check beim Workshop 2 ergänzen.