feature(notes): add notes from lession 2 morning

2026-05-21 10:16:37 +02:00
parent 17ba7e6376
commit fd0dc3cdf0
1 changed files with 83 additions and 0 deletions
@@ -0,0 +1,83 @@
 # Notizen SL Lektion 2
 >Thema: Datenverständnis, Explorative Datenanalyse, Feature Engineering
 >Datum: 21.05.2026
 >Dozentin: Violeta Vogel
 ## Überwachtes Lernen vs. Unüberwachtes Lernen
 - beim Überwachten Lernen kennt das Modell die richtigen Antworten (Labels) und das Modell lernt diese vorherzusagen
 - beim unüberwachten Lernen gibt es keine Labels, das Modell sucht selber Strukturen und Muster in den Daten
 ## Übungsaufgabe 1
 > Alle genannten Modelle nutzen primär Self-Supervised Learning (im Tabellenschema am ehesten "unüberwacht", da keine händischen Labels)
 > für das Pretraining, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning für das Alignment.
 1. Pretraining
    - Self-Supervised (Next-Token-Prediction auf riesigen Text)
    - "Unsupervised"
 2. Supervised Fine-Tuning (SFT)
    - Überwacht (Mensch schreibt ideale Antworten auf Prompts)
 3. RLHF / RLAIF / DPO
    - Reinforcement Learning aus menschlichem (oder KI-) Feedback
    - DPO: Direct Preference Optimization
 ## Datenverständnis
 1. Sammeln der Daten
    - Beschaffen der in den Projektressourcen aufgeführten Daten
    - Ersten Datenerfassungsbericht erstellen (Datenkatalog bilden)
 2. Daten beschreiben
    - Erkennen wie jedes einzelne Feature aussieht
    - In welchem Format sind die Daten?
    - Wie viele Daten habe ich, wie gross ist der Datensatz?
 3. Daten erkunden
    - Wie sind die Daten verteilt?
    - Gibt es Beziehungen zwischen den Daten?
    - Müssen eventuell Bereinigungen oder Aggregationen gemacht werden?
    - Datenexplorationsbericht erstellen
 4. Datenqualität prüfen
    - Sind die Daten vollständig?
    - Datenqualitätsbericht erstellen
 ## EDA: Ziele und Methoden
 - Mustererkennung
 - Datenbereinigung
 - Visualisierung
 - Hypothesengenerierung
 ## EDA: Explorative Datenanalyse
 - Anomalien
    - Ausreisser, Datenpunkte die stark von der Norm abweichen
 - Mögliche Anomalien
    - Ausreisser -> einzelne Datenpunkte die signifikant von Rest abweichen
    - Kontextbezogene Anomalien -> Daten die nur in einem bestimmten Kontext ungewöhnlich sind
    - Kollekive Anomalien -> eine Gruppe von Datenpunkten die gemeinsam abweichen auch wenn sie einzeln normal wirken
 - mögliche Anomalien nach Variablenart
    - nicht numberische Daten
        - fehlende Werte
        - Duplikate
        - Kategorien Variablen
            - hohe Kardinalität (viele eindeutige Werte)
            - nicht balancierte Daten
    - numberische Variablen
        - schiefe Verteilung
        - Ausreisser
        - Korrelationen
        - diskrete Werte mit geringer Kardinalität (wenig eindeutige Werte)
 ## Klassierung
 > Die Klassierung in der deskriptiven Statistik ordnet viele, unterschiedliche 
 Rohdaten in wenige, überschaubare Klassen (Intervalle) ein. 
 - Zweck: Reduzierung der Datenkomplexität (Muster und Trends erkennen)
 - Vorgehen: Festlegung von Klassengrenzen
 - Datstellung: Histogramme
 - Nachteile: Durch Gruppierungen geht die exakte Messgenauigkeit verloren, da einzelwerte nicht mehr erkennbar sind