feature(notes): add notes from lession 2 morning

2026-05-21 10:16:37 +02:00
parent 17ba7e6376
commit fd0dc3cdf0
1 changed files with 83 additions and 0 deletions
@@ -0,0 +1,83 @@
+# Notizen SL Lektion 2
+
+>Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering
+>Datum: 21.05.2026
+>Dozentin: Violeta Vogel
+
+## Überwachtes Lernen vs. Unüberwachtes Lernen
+
+- beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
+- beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten
+
+## Übungsaufgabe 1
+
+> Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels)
+> für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.
+
+1. Pretraining
+    - Self-Supervised (Next-Token-Prediction auf riesigen Text)
+    - "Unsupervised"
+2. Supervised Fine-Tuning (SFT)
+    - Überwacht (Mensch schreibt ideale Antworten auf Prompts)
+3. RLHF / RLAIF / DPO
+    - Reinforcement Learning aus menschlichem (oder KI-) Feedback
+    - DPO: Direct Preference Optimization
+
+## Datenverständnis
+
+1. Sammeln der Daten
+    - Beschaffen der in den Projektressourcen aufgeführten Daten
+    - Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
+2. Daten beschreiben
+    - Erkennen wie jedes einzelne Feature aussieht
+    - In welchem Format sind die Daten?
+    - Wie viele Daten habe ich, wie gross ist der Datensatz?
+3. Daten erkunden
+    - Wie sind die Daten verteilt?
+    - Gibt es Beziehungen zwischen den Daten?
+    - Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
+    - Datenexplorationsbericht erstellen
+4. Datenqualität prüfen
+    - Sind die Daten vollständig?
+    - Datenqualitätsbericht erstellen
+
+
+## EDA: Ziele und Methoden
+
+- Mustererkennung
+- Datenbereinigung
+- Visualisierung
+- Hypothesengenerierung
+
+## EDA: Explorative Datenanalyse
+
+- Anomalien
+    - Ausreisser, Datenpunkte die stark von der Norm abweichen
+- Mögliche Anomalien
+    - Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
+    - Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
+    - Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
+- mögliche Anomalien nach Variablenart
+    - nicht numberische Daten
+        - fehlende Werte
+        - Duplikate
+        - Kategorien Variablen
+            - hohe Kardinalität (viele eindeutige Werte)
+            - nicht balancierte Daten
+    - numberische Variablen
+        - schiefe Verteilung
+        - Ausreisser
+        - Korrelationen
+        - diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)
+
+## Klassierung
+
+> Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche 
+Rohdaten in wenige, überschaubare Klassen (Intervalle) ein. 
+
+- Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
+- Vorgehen: Festlegung von Klassengrenzen
+- Datstellung: Histogramme
+- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind
+
+