feature: add result from workshop 1
This commit is contained in:
@@ -81,3 +81,101 @@ Rohdaten in wenige, überschaubare Klassen (Intervalle) ein.
|
||||
- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind
|
||||
|
||||
|
||||
# Aufbau eines Data Frames
|
||||
|
||||
- Objekte / Beobachtungen sind in den Zeilen (rows)
|
||||
- Merkmale / Attribute sind in den Spalten (columns) angegeben
|
||||
- Spalten enthalten sprechende Namen, über welche sie
|
||||
angesprochen werden können
|
||||
- pro Spalte ist ein Datentyp festgelegt, unterschiedliche Spalten können aber
|
||||
unterschiedliche Typen aufweisen
|
||||
|
||||
## Workshop 1
|
||||
|
||||
### Nominal
|
||||
|
||||
> Das ist eine reine Kategorisierung. Werte sind nur Labels ohne jede Ordnung. Du kannst sagen "Rot ≠ Blau", aber nicht "Rot > Blau".
|
||||
|
||||
- Was geht:
|
||||
- Gleichheit prüfen (= oder ≠)
|
||||
- Was nicht geht:
|
||||
- Reihenfolge
|
||||
- Abstände
|
||||
- Rechnen
|
||||
- Beispiele:
|
||||
- Geschlecht
|
||||
- Postleitzahl
|
||||
- Häusertyp (h/u/t im Melbourne-Dataset)
|
||||
- Programmiersprache
|
||||
- MAC-Adresse
|
||||
- Sinnvolle Statistik:
|
||||
- Modus
|
||||
- Häufigkeiten
|
||||
- Chi-Quadrat
|
||||
- Mittelwert ist Unsinn ("durchschnittliche Postleitzahl"...)
|
||||
- Stolperfalle:
|
||||
- Wenn Kategorien als Zahlen codiert sind (z.B. Postcode = 3000), sieht's numerisch aus, ist aber nominal. Pandas wird's als int einlesen – die Klassifikation musst du selbst machen.
|
||||
|
||||
### Ordinal
|
||||
|
||||
> Ordnung ohne definierte Abstände. Du kannst Werte in eine sinnvolle Reihenfolge bringen, aber die Abstände dazwischen sind nicht definiert oder nicht gleich.
|
||||
|
||||
- Was geht:
|
||||
- Gleichheit + Reihenfolge (<, >)
|
||||
- Was nicht geht:
|
||||
- Abstände interpretieren
|
||||
- Rechnen
|
||||
- Beispiele:
|
||||
- Schulnoten (ist der Abstand zwischen 4 und 5 derselbe wie zwischen 5 und 6? Nicht wirklich)
|
||||
- Likert-Skalen ("stimme zu" bis "stimme nicht zu")
|
||||
- Militärränge
|
||||
- T-Shirt-Grössen (S/M/L/XL)
|
||||
- Bildungsabschluss.
|
||||
- Sinnvolle Statistik:
|
||||
- Median
|
||||
- Quantile
|
||||
- Rangkorrelationen (Spearman)
|
||||
- Stolperfalle:
|
||||
- Likert-Skalen werden in der Praxis ständig wie metrische Daten behandelt (Mittelwert von "3.7 auf 5er-Skala") – formal falsch, aber pragmatisch verbreitet. Eine Dauerdebatte in der Sozialforschung.
|
||||
|
||||
### Metrisch
|
||||
|
||||
> Echte Zahlen mit definierten Abständen
|
||||
|
||||
- Was geht:
|
||||
- Alles bisherige
|
||||
- Abstände und Verhältnisse berechnen
|
||||
- Hier wird's manchmal weiter unterteilt:
|
||||
- Intervall: gleiche Abstände, aber kein echter Nullpunkt. Verhältnisse sind sinnlos. Beispiel: Temperatur in °C – 20°C ist nicht "doppelt so warm" wie 10°C, weil der Nullpunkt willkürlich gesetzt ist. Andere Beispiele: Kalenderjahre, IQ.
|
||||
- Ratio (Verhältnis): gleiche Abstände plus echter Nullpunkt. Verhältnisse sind sinnvoll. Beispiel: Preis (0 € heisst tatsächlich "nichts"), Länge, Gewicht, Anzahl Zimmer.
|
||||
- Sinnvolle Statistik:
|
||||
- Mittelwert
|
||||
- Standardabweichung
|
||||
- Pearson-Korrelation
|
||||
- alle parametrischen Tests
|
||||
|
||||
### Ergebnisse
|
||||
|
||||
Nr. Cholumn Dtype nominal ordinal metrisch
|
||||
0 Unnamed:0 int64 x
|
||||
1 Suburb object x
|
||||
2 Address object x
|
||||
3 Rooms int64 x
|
||||
4 Type object x
|
||||
5 Price float64 x
|
||||
6 Method object x
|
||||
7 SellerG object x
|
||||
8 Date object x x
|
||||
9 Distance float64 x
|
||||
10 Postcode float64 x
|
||||
11 Bedroom2 float64 x
|
||||
12 Bathroom float64 x
|
||||
13 Car float64 x
|
||||
14 Landsize float64 x
|
||||
15 BuildingArea float64 x
|
||||
16 YearBuilt float64 x x
|
||||
17 CouncilArea object x
|
||||
18 Lattitude float64 x
|
||||
19 Longtitude float64 x
|
||||
20 Regionname object x
|
||||
21 Propertycount float64 x
|
||||
|
||||
Reference in New Issue
Block a user