feature: add more L3 theory notes

2026-05-28 14:32:36 +02:00
parent 3cb192fc5f
commit e397f031cc
1 changed files with 186 additions and 0 deletions
@@ -179,3 +179,189 @@
    ```python
    new_names = old_names.str.replace('[^a-zA-Z0-9_]', '_', regex=True)
    ```
 ## Dekomposition
 - Informatik: Kernmethode um grosse Probleme in kleine, handhabbare Teilaufgaben aufzuteilen
 - Wirtschaft und Mathematik: Analyse von Daten und Prozesse in einzelne Komponenten aufteilen, Trends, Zeitreihenanalyse und Restrauschen
 - In der Datenanalyse:
    - Saisonbereinigung vs. Trend
    - Prognose/Forecasting -> Aus Trend und Saisonalität kann Zukunft abgeleitet werden
    - Fehleranalyse -> Ist das "Restrauschen" normal oder hat es plötzliche Ausschläge?
 ### Beispiel: Eisverkauf
 - Saisonalität ist eindeutig
 - Wird die Saisonalität herausgerechnet, sieht man den Trend
 - Zufälle: Bspw Firmenfeier oder Schulabschluss
 ## Merkmals-Dekomposition
 - Standardverfahren zur Dimensionsreduktion
    - Viele Features können zu wenigen aussagekräftigen Hauptfaktoren zusammengelegt werden
 - Die wichtigsten Algorithmen
    - PCA (principlan component analysis)
        - Sucht nach den Richtungen (Achsen) in denen die Daten die grösste Varianz aufweisen
    - t-SNE (t-distributed Stochastic Neighbor Embedding)
        - Besonders gut darin nicht lineare Daten abzubilden
    - Faktorenanalyse
        - Geht davon aus, dass es latente Variablen gibt
 ### PCA
 - Zentrierung: Man schiebt die Datenwolke (Pixelhaufen) so, dass ihr Mittelpunkt genau bei Null liegt
 - Berechnung der Hauptkomponenten
    - Die 1. Hauptkomponente PC1 ist die Linie die so mitten durch die Daten gelegt wird, dass die Punkte so weit wie möglich darauf verteilt sind
    - Die 2. Hauptkomponente PC2 steht im rechten Winkel zur ersten und fängt den rest der Infromation ein
 - Vereinfacht einen riesigen Datensatz so, dass
 - nur die wichtigsten Merkmale bleiben
 - ohne das Gesamtbild zu verlieren
 - Visualisierung
    - Daten mit 10 oder 50 Merkmalen kann man nicht zeichnen
    - Nach PCA hat man 2 Hauptkomponenten und
    - man kann sie als Punkte darstellen
 - Geschwindigkeit: KI-Modelle lernen viel schneller wenn sie statt 1000 nur noch 10 komprimierte Merkmale verarbeiten müssen
 - Rauschunterdrückung: Kleine unwichtige Schwankungen (Rauschen) gehen verloren!
 - Voraussetzungen
    - keine Missing values
    - keine numerischen Daten
    - bereinigung anderer möglichen Anomalien
    - Features -> X
    - Target -> Y
    ```python
    from sklearn.decomposition import PCA
    model = PCA()
    pred = model.fit_transform(X) # train and apply trainer on data
    print(pred[:3,:]) # check result
    ```
 - Interessant: Scatterplot PC1 vs PC2
 ## Stichproben
 - Eie Stichprobe ist ein vollständiges, verkleinertes Spiegelbild der Grundgesamtheit.
    - Sie gibt damit auch alle wesentlichen Eigenschaften der Grundgesamtheit wieder
 - Mit eine Probeziehung wird ein repräsentativer Teil einer Population ausgewählt um Rückschlüsse auf die Gesamtheit zu ziehen
 - Repräsentativ
    - Eine Stichprobe ist dann repräsentativ wenn alle Beobachtungen der Grundgesamtheit die gleiche Chance besessen haben, Teil dieser Stichprobe zu werden
 ### Stichprobengrösse
 - Maschinelles Lernen: Als Faustregel gilt, dass Sie mindestens zehnmalso viele Datenpunkte/Beobachtungen benötigen, wie Ihr Datensatz Features enthält
 - Art des Ziehens
    - Mit oder ohne zurücklegen
 ### Einfache Stichprobe (Zufallsstichprobe)
 - Rein zufällige Features werden gezogen
 - Jede Beobachtung hat die gleiche Chance gezogen zu werden
 - Vorteil
    - Ist die Zufallsstichprobe gross genug werden automatisch alle Beobachtungen in der Stichprobe auftauchen
 ### Geschichtete Stichprobenziehung (Stratifizierung)
 - Ziel
    - Die Grundgesamtheit so genau wie möglich darzustellen
 - Anforderungen an die Schichten
    - Sie sollten sich gegenseitig ausschliessen und gemeinsam erschöpfend sein
 - Vorgehen
    - relevante Variablen identifizieren
        - alter, geschlecht, einkommen, standort
    - Grundgesamtheit wird auf Grundlage dieser Variablen in Untergruppen (schichten) eingeteilt
    - Zufallsstichprobe aus jeder Schicht wählen:
        - Proportional -> entsprechend dem Anteil der Schicht an der Grundgesamtheit
        - Disproportional -> etwa Gleich grosse Stichproben aus jeder Schicht
 ### Proportionale Stratifizierung
 - Die schichten werden originalgetreu gewichtet
 - Vorteile
    - Repräsentativität -> die Grundgesamtheit ist in der Stichprobe gut abgebildet
    - Präzise Schätzungen möglich
 - Nachteile
    - Aufwand
    - Komplexität
 ### Disproportionale Stratifizierung
 - Die Schichten werden unterschiedlich stark gewichtet
 - Verwendung wenn
    - bestimmte Schichten von besonderem Interesse sind
    - Kosten der Datenerhebung in den veschiedenen Schichten variieren
 - Ziel: Ausreichende Anzahl von Elementen jeder Schicht zu haben
 - Gewichtung: Faktor der die ursprüngliche Verteilung der Grundgesamtheit berücksichtigt
 - Vorteile:
    - Genauigkeit
    - Effizienz
    - Berücksichtigt Heterogenität
        - Detailiertere Analyse der unterschiedlichen Schichten möglich
 - Nachteile:
    - Verzerrte Ergebnisse
    - Aufwändige Analyse
 ### Klumpenstichprobe
 - Grundgesamtheit zunächst hinsichtlich eines Merkmals in natürliche Klumpen einteilen
    - Wie bspw. Klassen in einer Schule
 - Klumpen untereinander Homogen
    - Jeder Klumpen ist ein verkleinertes Abbild der Population
    - Alle Klumpen können sich stark ähneln
 ## Algorithmen
 - Wichtig
    - Distanzmasse
    - Overfitting
    - Training vs Anwenden
 ## Euklidisches Distanzmass
 - Wird am häufigsten verwendet in der Clusteranalyse
 - "Luftlinie", die den geometrischen Abstand zwischen zwei Punkten in einem Koordinatensystem misst
 - Für zwei Punkte P und Q in einem mehrdimensionalen Raum berechnet sich die Distanz nach dem Satz des Pythagoras
 - Optische Verzerrung
    - Nicht alle Features fallen gleich stark ins Gewicht
    - Lösung: Standardisierung
 ## Manhattan-Distanz (Taxi Prinzip)
 - Summe der absoluten Differenzen ihrer Einzelmasse und keine "Luftlinie"
 - Wenig anfälliger für Ausreisser
 ## Overfitting
 - Ein ML-Model lernen die Trainingsdaten zu gut auswendig und lernt
    - Zufallsschwankungen und Rauschen
 - Es wirkt intelligent aber in Wahrheit ist es nicht mehr generalisierungsfähig
 - Modell sieht Muster wo keine sind
 - Passiert wenn das Modell
    - zu komplex ist
    - zu wenig Daten hat
    - zu lange trainiert wure
    - Rauschen in den Daten als echtes Muster interpretiert wird
 - Ein Entscheidungsbaum könnte so stark wachsen, dass er jeden einzelnen Trainingspunkt perfekt trennt, sogar Ausreisser
 - Wie verhindert man das?
    - Cross-Validation
        - bei kleinen Datensätzen wichtig
        - Teilung des Datensatz in bestimmte Mengen
        - Bspw: Ten-fold cross validation (10:1 Trainings zu Testdaten)
    - Regularisierungen (L1,L2)
    - Frühzeitiges Stoppen
        - Pruning bei Entscheidungsbäumen
    - Mehr Trainingsdaten
    - Dropout bei neuronalen Netzen
    - Modell vereinfachen
 - Wenn sich Test Error und Training Error stark unterscheiden 
    - Ist das fast immer ein Zeichen für Overfitting
 ## Modeltraining vs Modelanwendung
 - Modelltraining
    - Input
        - Daten
        - Antworten (Zielvariable)
    - Algorithmus aussuchen
        - Algorithmen lernen Regeln
    - Auswählen des Algorithmus der am besten performed
 - Modelanwendung
    - Das Modell bekommt neue unbekannte Daten
    - Macht eine Vorhersage basierend auf den Trainingsdaten