feature(workshop): add workshop13 scaffold, solution will be added later

2026-06-11 12:28:44 +02:00
parent e79f047f17
commit 353ec74ba0
6 changed files with 18823 additions and 0 deletions
@@ -0,0 +1,68 @@
 # Workshop 13 — Stabilitätsvergleich von Klassifikatoren (Kreuzvalidierung)
 > CAS Practical Machine Learning · Supervised Learning · Lektion 5 (Foliensatz 14, Folie 12)
 > Zeit: 30'
 ## Aufgabenstellung
 Vergleiche **alle bisher bekannten Klassifikatoren** in Bezug auf deren **Stabilität**
 unter Anwendung von Kreuzvalidierung.
 - für die Klassifikatoren jeweils **Default-Parametrisierung** verwenden
 - für die Kreuzvalidierung `sklearn.model_selection.cross_val_score` einsetzen
 ## Kernidee: was heisst „Stabilität"?
 `cross_val_score` liefert einen Score **pro Fold**. Aus diesen Werten:
 - **mean** → durchschnittliche Performance
 - **std** → **Stabilität**: wie stark schwankt die Performance über die Folds (= über
  verschiedene Datenaufteilungen). **Kleine std = stabiler.**
 Ziel des Vergleichs: welcher Klassifikator liefert nicht nur gute, sondern auch
 **verlässliche** (wenig streuende) Ergebnisse?
 ## Datensatz
 Klassifikations-Datensatz aus den bisherigen Workshops (analog WS6, via
 `bfh_cas_pml.prep_data` auf dem aufbereiteten CSV in `data/`).
 > Hinweis: `cross_val_score` übernimmt das Splitten selbst → **kein** manueller
 > Train-Test-Split nötig. Es genügt, `X` und `y` zu übergeben (z.B. `X_train`, `y_train`).
 ## Ordnerstruktur
 ```
 workshop13
 ├── data
 │   └── <classification_data>.csv   # aus Kursmaterial
 ├── devenv.lock
 ├── devenv.nix
 ├── README.md
 ├── stability_boxplot.png            # Output
 └── src
    ├── bfh_cas_pml.py               # aus Kursmaterial
    └── crossvalidation.py           # Lösung
 ```
 ## Vorgehen
 1. Daten laden (`X`, `y`).
 2. Alle bekannten Klassifikatoren mit **Default-Parametern** in einem `dict` sammeln.
 3. Pro Klassifikator `cross_val_score(clf, X, y, cv=kfold)` rechnen.
 4. `mean` und `std` je Klassifikator gegenüberstellen (nach `std` sortieren).
 5. Boxplot aller Klassifikatoren nebeneinander → Streuung sichtbar machen.
 ## Erkenntnisse / offene Punkte
 > hier eigene Beobachtungen festhalten
 - Stabilster Klassifikator (kleinste std):
 - Bester Mittelwert (mean):
 - Trade-off mean vs. std:
 - Welche Klassifikatoren brauchen `random_state`, welche nicht?
 ## Quellen
 - Foliensatz 14 (Validierung), V. Vogel, TI BFH — Folien 10–12
 - Notizen: `../../L5_Notizen.md` (Abschnitt „Praxis: Kreuzvalidierung")
@@ -0,0 +1,65 @@
 {
  "nodes": {
    "devenv": {
      "locked": {
        "dir": "src/modules",
        "lastModified": 1781147004,
        "narHash": "sha256-/s2Fk3BDmdIIwSWZc04fLrCK86chpxpeMRgHXGjzquk=",
        "owner": "cachix",
        "repo": "devenv",
        "rev": "15f44b869b9c99b0bb104b7d5a04d9faba540a5e",
        "type": "github"
      },
      "original": {
        "dir": "src/modules",
        "owner": "cachix",
        "repo": "devenv",
        "type": "github"
      }
    },
    "nixpkgs": {
      "inputs": {
        "nixpkgs-src": "nixpkgs-src"
      },
      "locked": {
        "lastModified": 1778507786,
        "narHash": "sha256-HzSQCKMsMr8r55LwM1JuzIOB+8bzk0FEv6sItKvsfoY=",
        "owner": "cachix",
        "repo": "devenv-nixpkgs",
        "rev": "8f24a228a782e24576b155d1e39f0d914b380691",
        "type": "github"
      },
      "original": {
        "owner": "cachix",
        "ref": "rolling",
        "repo": "devenv-nixpkgs",
        "type": "github"
      }
    },
    "nixpkgs-src": {
      "flake": false,
      "locked": {
        "lastModified": 1778274207,
        "narHash": "sha256-I4puXmX1iovcCHZlRmztO3vW0mAbbRvq4F8wgIMQ1MM=",
        "owner": "NixOS",
        "repo": "nixpkgs",
        "rev": "b3da656039dc7a6240f27b2ef8cc6a3ef3bccae7",
        "type": "github"
      },
      "original": {
        "owner": "NixOS",
        "ref": "nixpkgs-unstable",
        "repo": "nixpkgs",
        "type": "github"
      }
    },
    "root": {
      "inputs": {
        "devenv": "devenv",
        "nixpkgs": "nixpkgs"
      }
    }
  },
  "root": "root",
  "version": 7
 }
@@ -0,0 +1,31 @@
 { pkgs, ... }:
 {
  # Native libs that the pip-wheel-installed numpy/scipy/matplotlib stack
  # dlopen()s at runtime. zlib war schon in W3/W4 nötig (libz.so.1),
  # stdenv.cc.cc.lib liefert libstdc++ für die scipy/sklearn-Wheels.
  packages = [
    pkgs.zlib
    pkgs.stdenv.cc.cc.lib
  ];
  languages.python = {
    enable = true;
    venv.enable = true;
    venv.requirements = ''
      pandas
      numpy
      scikit-learn
      matplotlib
      seaborn
    '';
  };
  # Loader-Pfad für die obigen nativen Libs. Wenn beim Import trotzdem ein
  # "ImportError: libXYZ.so.N" auftaucht: das bereitstellende pkgs.<paket>
  # zu packages UND hier ergänzen — gleiches Muster wie der W3-Fix.
  env.LD_LIBRARY_PATH = pkgs.lib.makeLibraryPath [
    pkgs.zlib
    pkgs.stdenv.cc.cc.lib
  ];
 }
@@ -0,0 +1,193 @@
 """
    Useful functions for example notebooks and workshop solutions
    of course Practical Machine Learning - Supervised Learning
    Bern University of Applied Sciences (BFH)
 """
 # ========== Packages ==========
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import seaborn as sns
 # ========== Functions ==========
 def prep_data(dataset, target, train_ratio = 2 / 3, seed = None, sep = ','):
    """ read and prepare real data from the current directory
    performs 
        read data
        features - target - split
        train - test - split
    Parameters
    ----------
    dataset: name of dataset in csv format
    target: name of target column
    train_ratio (2 / 3): (optional)
    seed (None): random seet for split (optional)
    sep (,): separator of csv file (optional)
    Returns
    -------
    X_train: feature matrix of train set
    X_test: target vector of train set
    y_train: feature matrix of test set
    y_test: target vector of train set
    """
    ## load data
    data = pd.read_csv(dataset, sep = sep)
    ## features - target - split
    X = data.drop(target, axis=1)
    y = data[target]
    ## train - test - split
    from sklearn.model_selection import train_test_split
    return train_test_split(
        X,
        y,
        train_size=train_ratio,
        random_state=seed)
 def prep_demo_data(dataset, target):
    """ read demo data from the current directory
    performs 
        read data
        features - target - split
    Parameters
    ----------
    dataset: name of dataset in csv format, ',' separated
    target: name of target column
    Returns
    -------
    X: feature matrix
    y: target vector
    """
    ## load data
    data = pd.read_csv(dataset)
    ## features - target - split
    X = data.drop(target, axis=1)
    y = data[target]
    return X, y   
 def inspect_decision_tree_model(model_def, features, target, figsize=(6, 6)):
    """ train a DecisionTreeClassifier and visualize the tree
    prints some motel attributes from within the function
    Parameters
    ----------
    model_def: DecisionTreeClassifier object with set parameters
    features: feature matrix
    target: target vector
    figsize: size of image, optional, default = (6, 6)
    Returns
    -------
    visualization of the trained tree
    prints model attributes
    """
    from sklearn.tree import plot_tree
    model = model_def
    model.fit(features, target)
    print('TREE DIAGNOSTICS:')
    print('depth  :', model.get_depth())
    print('leaves :', model.get_n_leaves())
    print('score  :', model.score(features, target))
    plt.figure(figsize=figsize)
    plot_tree(model,
              feature_names=features.columns,
              class_names=model.classes_,
              filled=True);
 def test_regression_model(model, X_train, y_train, X_test, y_test, show_plot=True):
    """ shows behavoiur of univariate ML regression on synthetic dataset
    performs
    -   training on train data
    -   prediction on test data
    -   calculate performance measures
    Parameters
    ----------
    model: a parametrized regression model
    X_train, y_train: train data
    X_test, y_test: test data
    show_plot: show scatterplot ov pred vs true, optional, default=True
    Returns
    -------
    shows a scatterplot von X_test vs X_pred with a diagonal line, indicating identity
    prints r2_score and mean_squared_error
    """
    from sklearn.metrics import r2_score
    from sklearn.metrics import mean_squared_error
    model = model
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print('R2 = %0.4f' %(r2_score(y_test, y_pred)))
    if show_plot == True:
        plt.figure(figsize=(6,6))
        ax = sns.scatterplot(x=y_test, y=y_pred)
        ax.set(xlabel='y_test', ylabel='y_pred')
        ls = np.linspace(min(y_test), max(y_test), 100)
        plt.plot(ls, ls, color='black', linestyle='dashed')
        ax.set_title(model.__class__.__name__)
        plt.show()
    return (model)
 def show_pred_on_synth(model, X, y, X_synth, param_str):
    """ shows behavoiur of univariate ML regression on synthetic dataset
    Parameters
    ----------
    model: a parametrized regression model
    X, y: data for univariate regression
    X_synth: synthetic Feature
    param_str: parameter description for title
    seed (None): random seet for split
    Returns
    -------
    a scatterplot von X, y, with the prediction values for X_synth
    """
    model.fit(X.to_numpy(), y)
    y_pred = model.predict(X_synth)
    ax = sns.scatterplot(x=X['X'], y=y)
    ax = sns.lineplot(x=X_synth[:,0], y=y_pred, color='orange')
    ax.set_title(model.__class__.__name__ + ' : ' + param_str)
    ax.set(xlabel='X', ylabel='y')
    plt.show()
@@ -0,0 +1,72 @@
 """
 Workshop 13 — Stabilitätsvergleich von Klassifikatoren mittels Kreuzvalidierung.
 Aufgabe (Folie 12): vergleiche alle bisher bekannten Klassifikatoren bzgl. ihrer
 Stabilität unter Kreuzvalidierung.
  - Default-Parametrisierung
  - sklearn.model_selection.cross_val_score
 """
 import numpy as np
 import pandas as pd
 import seaborn as sns
 import matplotlib
 matplotlib.use("Agg")  # headless: Plot in Datei statt Fenster
 import matplotlib.pyplot as plt
 from sklearn.model_selection import cross_val_score
 # Klassifikatoren — TODO: an "alle bisher bekannten" anpassen (im Kurs behandelte)
 from sklearn.tree import DecisionTreeClassifier
 from sklearn.ensemble import RandomForestClassifier
 # from sklearn.linear_model import LogisticRegression
 # from sklearn.neighbors import KNeighborsClassifier
 # from sklearn.naive_bayes import GaussianNB
 # from sklearn.svm import SVC
 # ...
 # --- Daten laden ---------------------------------------------------------
 # wie in den bisherigen Klassifikations-Workshops (z.B. bfh_cas_pml.prep_data
 # auf dem Klassifikations-Datensatz in data/).
 # Hinweis: cross_val_score splittet selbst -> KEIN manueller Train-Test-Split.
 #          Übergib X, y (z.B. X_train, y_train aus prep_data).
 # TODO: X, y bereitstellen
 # --- Klassifikatoren sammeln ---------------------------------------------
 # dict {name: estimator} -> sauber iterierbar, alle mit Default-Parametern.
 # Frage: welche Estimator sind stochastisch (brauchen random_state für
 #        Reproduzierbarkeit), welche sind deterministisch? -> nur erstere setzen.
 SEED = 1234
 classifiers = {
    "DecisionTree": DecisionTreeClassifier(random_state=SEED),
    "RandomForest": RandomForestClassifier(random_state=SEED),
    # TODO: restliche bekannte Klassifikatoren ergänzen (Default-Parameter!)
 }
 # --- Kreuzvalidierung je Klassifikator -----------------------------------
 KFOLD = 10  # default wäre 5; grösser = stabilere Schätzung, mehr Rechenzeit
 results = {}  # name -> scores-array (ein Score pro Fold)
 # TODO: für jeden (name, clf) in classifiers:
 #         scores = cross_val_score(clf, X, y, cv=KFOLD)
 #         results[name] = scores
 # --- Auswertung: mean & std ----------------------------------------------
 # Stabilität = Streuung der Fold-Scores. Kleine std => stabil (vgl. Notizen).
 # TODO: pro Klassifikator mean und std berechnen,
 #       z.B. als DataFrame, aufsteigend nach std sortiert (stabilste zuerst).
 # --- Visualisierung -------------------------------------------------------
 # Boxplot pro Klassifikator nebeneinander -> Streuung direkt vergleichbar.
 # Tipp: results in ein "long format" bringen (Spalten: classifier, score),
 #       dann sns.boxplot(data=df, x="classifier", y="score").
 # TODO: Boxplot erstellen und mit plt.savefig("stability_boxplot.png") speichern.
 if __name__ == "__main__":
    pass  # TODO: Ablauf aufrufen / Ergebnisse ausgeben