Tabellarische Zusammenstellung mit einem Tool eigener Wahl, erweiterbar für folgende Workshops
Abgleich mit der Online-Dokumentation des Datasets (Konsistenz prüfen)
Daten optional direkt mit Python sichten

30 Minuten

Vorgehen

Daten laden und erste Sichtung (df.info(), df.head(), df.describe(), df.nunique())
Pro Spalte klassifizieren: Spaltenname, dtype, Anzahl unique, Skalenniveau, Bemerkung
Online-Doku abgleichen, Diskrepanzen notieren
Tabelle exportieren (CSV / Markdown)

Theorie – Skalenniveaus

Niveau	Operationen	Beispiel	Statistik
Nominal	=, ≠	Suburb, Type	Modus, Häufigkeiten
Ordinal	+ <, >	Schulnoten, Likert	Median, Quantile
Intervall	+ Abstände	Temperatur °C, Datum	Mittelwert, SD
Ratio	+ Verhältnisse (echter Nullpunkt)	Preis, Anzahl Zimmer	alle parametrischen Tests

Hierarchie: nominal ⊂ ordinal ⊂ intervall ⊂ ratio

.
├── devenv.nix
├── devenv.lock
├── devenv.yaml
├── data/
│   └── melb_data.csv
└── notebooks/
    └── 01_skalenniveaus.md

Vorgaben der Dozentin (Anaconda3-2024.02-1, Python 3.11.7):

Eigenes Setup nutzt aktuelles Python via devenv, ohne striktes Versionspinning.