feature(notizen): add notes from l2 morning

2026-04-30 11:44:25 +02:00
parent 96a9f2e550
commit 1c35aa1f79
1 changed files with 94 additions and 1 deletions
@@ -152,7 +152,6 @@ Bewertung:
        - Beta < emphasize precision
        - Beta > emphasize recall
 ### Other metrics 
 - the generalization of our binary classifier result matrix (classification result vs. gold standard) is called a confusion matrix
@@ -160,3 +159,97 @@ Bewertung:
        - https.//en.wikipedia.org/wiki/Confusion_matrix
    - other widely used metrics include ROC, K-S, gail/lift, ...
 - for specific ML problems and algorithms many additional metrics exists
 ## Automated Evaluation Workflow
 - How can we automatie evaluation
    1. define a controlled test set (benchmarks)
        - collection of data (labeled)
        - one or more tasks to be solved by the ML system
        - expected results
            - created by (typically) human domain experts
    2. execute ML system for test set
    3. compare computed results against expected results
 ### Evaluation Goals
 - Compare a solution with ...
    - different configuration options
        - bspw. feingranulare parametrisierung in einem decision tree (gini parameter bspw)
    - alternative solutions
    - a basic solution ("baseline")
        - abschätzung nach unten
    - the industry and/or academic leader ("state-of-the-art")
        - abschätzung nach oben
    - human performance ("gold standard")
        - auch eine abschätzung nach oben, welche man machen sollte
        - Mensch macht auch 1-2% Fehler
    - itself over time
 ## Using Data for Training and Testing
 - ML Methods usually require fine-tuning for good quality
 - Trainingsdaten dürfen nicht gleichzeitig zum Testen verwendet werden, es muss aufgeteilt werden
 - Wie splitte ich in Trainingsdaten und Testdaten?
    - Modell wird besser wenn mehr trainingsdaten gegeben werden
    - aber man will auch möglichst viele Daten fürs Testen, damit Metrik verbessert wird
    - Konflikt
 - Einfache Methode: 80% Training 20% Testing
    - Verteilung wichtig! Einfach die vorderen 80% fürs Training nehmen und die hinteren 20% als Test ist nicht gut
        - Daten sind oft sortiert
        - Beide Datenmengen müssen repräsentativ sein!
    - Quick fix: Random Number generator verwenden (**rand-split** in scikit-learn)
        - wenn die gesamtdatenmenge gross genug ist, geht das relativ gut auf
        - im Mittel hat man eine gute Verteilung
        - Problematisch wird das wenn das Klassifikationsproblem stark unbalanciert ist
            - Websuche: Datenmenge 100k Webseiten, davon sind 20 relevant -> winzige relevante Menge (p class) und eine grosse (n class)
    - Besser als Random-Split: K-Fold Cross Validation
 ### K-Fold Cross Validation
 - Wie geht man möglichst effizient mit den gelabelten (gold standard) Daten um?
    - Es geht nicht gleichzeitig aber nacheinander
        - erst trainieren, dann testen
 - How to split gold standard data into test and trainin set such that
    - we have enough training data
    - our test results are not biased
 - k-fold cross validation
    - split data into k folds (Aufteilung in k Teile)
    - use (k-1) for training, 1 for testing
    - repeat k times
 - Siehe Grafik Skript Seite 14
 - Aufteilung auf 3 Folds
    - Jedes Sample wurde jeweils einmal zum training und zum testen verwendet
    - Man hat ein Problem, wenn sich die Metriken (Fehlerquoten) beim Testen von Fold zu Fold sich stark unterscheiden
    - Weiteres Problem: Modell sehr sensibel auf Trainingsdaten
        - Zu wenig Trainingsdaten vorhanden
        - Unterschiede von Fold zu Fold sehr gross -> Könnte heissen, dass das Modell nicht stabil ist
    - Kommen von Fold zu Fold aber gleich gute Resultate zurück (Varianz und Standardabweichung gleich)
        - Gutes Zeichen für das Modell
 - In der Praxis arbeitet man nicht mit 3 sonder mit 10 Folds
    - 10 fold cross validation
        - 90/10
    - Wird statistisch besser
    - Setzt voraus, das man genug grosse Datenmengen hat 
 ## Dataset Challenges
 - Potential Problems: is the dataset...
    - correct?
    - large enough?
    - representative?
    - cause overfitting? -> Zu viele eintönige Daten, und das Modell lernt eine Niche
 - for many application domains, large datasets are available
    - not all free but still cost saving
    - allows to compare approaches in a larger community
 - where to search
    - wikipedia
    - kaggle
    - research groups at universities
    - conference series 
    - research articles
    - data collecting companies and public administrations