diff --git a/SL/notizen/L2_Notizen.md b/SL/notizen/L2_Notizen.md new file mode 100644 index 0000000..a70c910 --- /dev/null +++ b/SL/notizen/L2_Notizen.md @@ -0,0 +1,83 @@ +# Notizen SL Lektion 2 + +>Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering +>Datum: 21.05.2026 +>Dozentin: Violeta Vogel + +## Überwachtes Lernen vs. Unüberwachtes Lernen + +- beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen +- beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten + +## Übungsaufgabe 1 + +> Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels) +> für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment. + +1. Pretraining + - Self-Supervised (Next-Token-Prediction auf riesigen Text) + - "Unsupervised" +2. Supervised Fine-Tuning (SFT) + - Überwacht (Mensch schreibt ideale Antworten auf Prompts) +3. RLHF / RLAIF / DPO + - Reinforcement Learning aus menschlichem (oder KI-) Feedback + - DPO: Direct Preference Optimization + +## Datenverständnis + +1. Sammeln der Daten + - Beschaffen der in den Projektressourcen aufgeführten Daten + - Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden) +2. Daten beschreiben + - Erkennen wie jedes einzelne Feature aussieht + - In welchem Format sind die Daten? + - Wie viele Daten habe ich, wie gross ist der Datensatz? +3. Daten erkunden + - Wie sind die Daten verteilt? + - Gibt es Beziehungen zwischen den Daten? + - Müssen eventuell Bereinigungen oder Aggregationen gemacht werden? + - Datenexplorationsbericht erstellen +4. Datenqualität prüfen + - Sind die Daten vollständig? + - Datenqualitätsbericht erstellen + + +## EDA: Ziele und Methoden + +- Mustererkennung +- Datenbereinigung +- Visualisierung +- Hypothesengenerierung + +## EDA: Explorative Datenanalyse + +- Anomalien + - Ausreisser, Datenpunkte die stark von der Norm abweichen +- Mögliche Anomalien + - Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen + - Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind + - Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken +- mögliche Anomalien nach Variablenart + - nicht numberische Daten + - fehlende Werte + - Duplikate + - Kategorien Variablen + - hohe Kardinalität (viele eindeutige Werte) + - nicht balancierte Daten + - numberische Variablen + - schiefe Verteilung + - Ausreisser + - Korrelationen + - diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte) + +## Klassierung + +> Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche +Rohdaten in wenige, überschaubare Klassen (Intervalle) ein. + +- Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen) +- Vorgehen: Festlegung von Klassengrenzen +- Datstellung: Histogramme +- Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind + +