# Notizen SL Lektion 2 >Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering >Datum: 21.05.2026 >Dozentin: Violeta Vogel ## Überwachtes Lernen vs. Unüberwachtes Lernen - beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen - beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten ## Übungsaufgabe 1 > Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels) > für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment. 1. Pretraining - Self-Supervised (Next-Token-Prediction auf riesigen Text) - "Unsupervised" 2. Supervised Fine-Tuning (SFT) - Überwacht (Mensch schreibt ideale Antworten auf Prompts) 3. RLHF / RLAIF / DPO - Reinforcement Learning aus menschlichem (oder KI-) Feedback - DPO: Direct Preference Optimization ## Datenverständnis 1. Sammeln der Daten - Beschaffen der in den Projektressourcen aufgeführten Daten - Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden) 2. Daten beschreiben - Erkennen wie jedes einzelne Feature aussieht - In welchem Format sind die Daten? - Wie viele Daten habe ich, wie gross ist der Datensatz? 3. Daten erkunden - Wie sind die Daten verteilt? - Gibt es Beziehungen zwischen den Daten? - Müssen eventuell Bereinigungen oder Aggregationen gemacht werden? - Datenexplorationsbericht erstellen 4. Datenqualität prüfen - Sind die Daten vollständig? - Datenqualitätsbericht erstellen ## EDA: Ziele und Methoden - Mustererkennung - Datenbereinigung - Visualisierung - Hypothesengenerierung ## EDA: Explorative Datenanalyse - Anomalien - Ausreisser, Datenpunkte die stark von der Norm abweichen - Mögliche Anomalien - Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen - Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind - Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken - mögliche Anomalien nach Variablenart - nicht numberische Daten - fehlende Werte - Duplikate - Kategorien Variablen - hohe Kardinalität (viele eindeutige Werte) - nicht balancierte Daten - numberische Variablen - schiefe Verteilung - Ausreisser - Korrelationen - diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte) ## Klassierung > Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche Rohdaten in wenige, überschaubare Klassen (Intervalle) ein. - Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen) - Vorgehen: Festlegung von Klassengrenzen - Datstellung: Histogramme - Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind