feautre(workshops): add workshop 6

2026-06-04 15:26:57 +02:00
parent 6d6cc9f917
commit d1872712c4
10 changed files with 10309 additions and 0 deletions
@@ -0,0 +1,102 @@
 # Workshop 06 — RandomForestClassifier: Parameter Tuning
 ## Aufgabe
 Drei Tuning-Parameter des `RandomForestClassifier` auf die erreichte Accuracy
 untersuchen (vorbereiteter Bank-Datensatz, identisch zu WS5), je über einen
 vorgegebenen Wertebereich:
 | Parameter              | Wertebereich              | Typ   |
 |------------------------|---------------------------|-------|
 | `n_estimators`         | `range(100, 500, 50)`     | int   |
 | `max_features`         | `range(1, 11)`            | int   |
 | `min_impurity_decrease`| `np.arange(0, 0.1, 0.01)` | float |
 Zusätzlich: Wirkung von `random_state` einordnen, und (Zusatzfrage) bestimmen,
 welche der übrigen Parameter keine Tuning-Parameter sind.
 ## Vorgehen
 Wiederverwendung des Sweep-/Plot-Gerüsts aus WS5. Die einzige Anpassung war die
 Generalisierung der Sweep-Funktion auf einen frei wählbaren Parameternamen
 (`set_params` per dict-Unpacking), womit sich alle drei Parameter mit derselben
 Funktion abdecken lassen. Jeder Sweep hält die übrigen Parameter auf den
 Defaults und variiert nur den untersuchten.
 Pro Sweep: Liniendiagramm (Parameter vs. Accuracy) mit markiertem Maximum sowie
 Konsolenausgabe von bestem Score und zugehörigem Parameterwert.
 `n_jobs=-1` gesetzt — bei bis zu 450 Bäumen pro Fit und mehreren Fits pro Sweep
 ist die Parallelisierung über alle Cores hier praktisch zwingend, nicht
 optional. `n_jobs` ist dabei reiner Performance-Schalter ohne Einfluss auf das
 Resultat.
 ## Resultate
 | Parameter              | bester Score | bei Wert |
 |------------------------|--------------|----------|
 | `n_estimators`         | 0.8792       | 400      |
 | `max_features`         | 0.8780       | 6        |
 | `min_impurity_decrease`| 0.8750       | 0.0      |
 Interpretation der einzelnen Verläufe:
 **`n_estimators`** — die Kurve bewegt sich über den gesamten Bereich nur
 zwischen 0.875 und 0.879. Diese Schwankung liegt im Bereich des Seed-Rauschens
 und ist kein echtes Optimum. Die belastbare Aussage lautet: Plateau ab ~150
 Bäumen, danach reine Rechenzeit ohne Mehrwert. Der nominelle „Peak" bei 400 ist
 nicht als optimaler Wert zu interpretieren.
 **`max_features`** — hier liegt echtes Signal vor: Anstieg von ~0.857 (bei 1)
 auf ein breites Maximum ab ~4 Features. Der beste Wert (6) liegt nahe am
 sklearn-Default `sqrt(n_features)` für Klassifikation, was den Default bestätigt.
 Zu kleine Werte machen die einzelnen Bäume zu zufällig (Underfit); zu grosse
 Werte erhöhen die Korrelation zwischen den Bäumen und schmälern den
 Ensemble-Vorteil.
 **`min_impurity_decrease`** — bestes Resultat bei 0 (kein Pruning), danach
 monotoner Abfall auf ein Plateau bei ~0.757. Das ist das aufschlussreichste
 Ergebnis des Workshops und der direkte Kontrast zu WS5: beim einzelnen
 DecisionTree hat Pre-Pruning das Overfitting reduziert und die Test-Accuracy
 verbessert. Beim Random Forest übernimmt das Bagging diese Varianzkontrolle
 bereits auf Ensemble-Ebene — Pruning der einzelnen Bäume nimmt ihnen die
 gewollte Varianz und kann die Accuracy daher praktisch nur verschlechtern.
 ## Wirkung von `random_state`
 Der Random Forest hat zwei Zufallsquellen: das Bootstrap-Sampling (welche Zeilen
 jeder Baum sieht) und die Random Feature Selection (welche Features pro Split zur
 Wahl stehen). `random_state` seedet beide und macht den Lauf reproduzierbar.
 Der Effekt des konkreten Seeds nimmt mit steigendem `n_estimators` ab: bei wenig
 Bäumen schwankt die Accuracy je nach Seed merklich, bei vielen Bäumen mittelt
 sich das aus. Ein Teil der Zacken im `n_estimators`-Verlauf ist genau diese
 Seed-Variation und nicht echtes Signal — siehe Interpretation oben.
 ## Zusatzfrage: Nicht-Tuning-Parameter
 Kriterium: ein Tuning-Parameter verschiebt den Bias-Varianz-Tradeoff bzw. die
 Kapazität des Modells. Parameter, die nur Infrastruktur, Reproduzierbarkeit,
 Logging, Workflow oder Reporting steuern, sind keine Tuning-Parameter. Aus
 `model.get_params()` betrifft das:
 - `random_state` — Seed (Reproduzierbarkeit)
 - `n_jobs` — Parallelisierung (Performance)
 - `verbose` — Logging-Ausgabe
 - `warm_start` — Workflow-Schalter für inkrementelles Fitten
 - `oob_score` — schaltet nur die Out-of-Bag-Schätzung als Reporting an, ändert
  das gefittete Modell nicht
 Grenzfälle wie `bootstrap`, `class_weight` oder `max_samples` beeinflussen das
 Modell hingegen sehr wohl und zählen damit zu den Tuning-Parametern.
 ## Caveats / Deviations
 - **One-at-a-time-Tuning**: jeder Parameter wurde einzeln bei Defaults der
  übrigen variiert. Damit werden Wechselwirkungen zwischen Parametern nicht
  erfasst; das gemeinsame Optimum kann von der Kombination der drei
  Einzelbestwerte abweichen. Eine gemeinsame Suche (`GridSearchCV`, vgl. WS4)
  wäre dafür das richtige Werkzeug.
 - **Optimistic Bias**: wie in WS4/WS5 wird direkt gegen das Test-Set getunt. Die
  berichteten Bestwerte sind dadurch optimistisch verzerrt; sauber wäre ein
  Validierungs-Split bzw. Cross-Validation.
@@ -0,0 +1,65 @@
 {
  "nodes": {
    "devenv": {
      "locked": {
        "dir": "src/modules",
        "lastModified": 1780543372,
        "narHash": "sha256-FCGxk82Lc4koWcFw5xgr+W5vbwLVFLCnSMwm2gQOgr0=",
        "owner": "cachix",
        "repo": "devenv",
        "rev": "f693b472c731e7dda69402daa88c06369d54fd3a",
        "type": "github"
      },
      "original": {
        "dir": "src/modules",
        "owner": "cachix",
        "repo": "devenv",
        "type": "github"
      }
    },
    "nixpkgs": {
      "inputs": {
        "nixpkgs-src": "nixpkgs-src"
      },
      "locked": {
        "lastModified": 1778507786,
        "narHash": "sha256-HzSQCKMsMr8r55LwM1JuzIOB+8bzk0FEv6sItKvsfoY=",
        "owner": "cachix",
        "repo": "devenv-nixpkgs",
        "rev": "8f24a228a782e24576b155d1e39f0d914b380691",
        "type": "github"
      },
      "original": {
        "owner": "cachix",
        "ref": "rolling",
        "repo": "devenv-nixpkgs",
        "type": "github"
      }
    },
    "nixpkgs-src": {
      "flake": false,
      "locked": {
        "lastModified": 1778274207,
        "narHash": "sha256-I4puXmX1iovcCHZlRmztO3vW0mAbbRvq4F8wgIMQ1MM=",
        "owner": "NixOS",
        "repo": "nixpkgs",
        "rev": "b3da656039dc7a6240f27b2ef8cc6a3ef3bccae7",
        "type": "github"
      },
      "original": {
        "owner": "NixOS",
        "ref": "nixpkgs-unstable",
        "repo": "nixpkgs",
        "type": "github"
      }
    },
    "root": {
      "inputs": {
        "devenv": "devenv",
        "nixpkgs": "nixpkgs"
      }
    }
  },
  "root": "root",
  "version": 7
 }
@@ -0,0 +1,31 @@
 { pkgs, ... }:
 {
  # Native libs that the pip-wheel-installed numpy/scipy/matplotlib stack
  # dlopen()s at runtime. zlib war schon in W3/W4 nötig (libz.so.1),
  # stdenv.cc.cc.lib liefert libstdc++ für die scipy/sklearn-Wheels.
  packages = [
    pkgs.zlib
    pkgs.stdenv.cc.cc.lib
  ];
  languages.python = {
    enable = true;
    venv.enable = true;
    venv.requirements = ''
      pandas
      numpy
      scikit-learn
      matplotlib
      seaborn
    '';
  };
  # Loader-Pfad für die obigen nativen Libs. Wenn beim Import trotzdem ein
  # "ImportError: libXYZ.so.N" auftaucht: das bereitstellende pkgs.<paket>
  # zu packages UND hier ergänzen — gleiches Muster wie der W3-Fix.
  env.LD_LIBRARY_PATH = pkgs.lib.makeLibraryPath [
    pkgs.zlib
    pkgs.stdenv.cc.cc.lib
  ];
 }
@@ -0,0 +1,193 @@
 """
    Useful functions for example notebooks and workshop solutions
    of course Practical Machine Learning - Supervised Learning
    Bern University of Applied Sciences (BFH)
 """
 # ========== Packages ==========
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import seaborn as sns
 # ========== Functions ==========
 def prep_data(dataset, target, train_ratio = 2 / 3, seed = None, sep = ','):
    """ read and prepare real data from the current directory
    performs 
        read data
        features - target - split
        train - test - split
    Parameters
    ----------
    dataset: name of dataset in csv format
    target: name of target column
    train_ratio (2 / 3): (optional)
    seed (None): random seet for split (optional)
    sep (,): separator of csv file (optional)
    Returns
    -------
    X_train: feature matrix of train set
    X_test: target vector of train set
    y_train: feature matrix of test set
    y_test: target vector of train set
    """
    ## load data
    data = pd.read_csv(dataset, sep = sep)
    ## features - target - split
    X = data.drop(target, axis=1)
    y = data[target]
    ## train - test - split
    from sklearn.model_selection import train_test_split
    return train_test_split(
        X,
        y,
        train_size=train_ratio,
        random_state=seed)
 def prep_demo_data(dataset, target):
    """ read demo data from the current directory
    performs 
        read data
        features - target - split
    Parameters
    ----------
    dataset: name of dataset in csv format, ',' separated
    target: name of target column
    Returns
    -------
    X: feature matrix
    y: target vector
    """
    ## load data
    data = pd.read_csv(dataset)
    ## features - target - split
    X = data.drop(target, axis=1)
    y = data[target]
    return X, y   
 def inspect_decision_tree_model(model_def, features, target, figsize=(6, 6)):
    """ train a DecisionTreeClassifier and visualize the tree
    prints some motel attributes from within the function
    Parameters
    ----------
    model_def: DecisionTreeClassifier object with set parameters
    features: feature matrix
    target: target vector
    figsize: size of image, optional, default = (6, 6)
    Returns
    -------
    visualization of the trained tree
    prints model attributes
    """
    from sklearn.tree import plot_tree
    model = model_def
    model.fit(features, target)
    print('TREE DIAGNOSTICS:')
    print('depth  :', model.get_depth())
    print('leaves :', model.get_n_leaves())
    print('score  :', model.score(features, target))
    plt.figure(figsize=figsize)
    plot_tree(model,
              feature_names=features.columns,
              class_names=model.classes_,
              filled=True);
 def test_regression_model(model, X_train, y_train, X_test, y_test, show_plot=True):
    """ shows behavoiur of univariate ML regression on synthetic dataset
    performs
    -   training on train data
    -   prediction on test data
    -   calculate performance measures
    Parameters
    ----------
    model: a parametrized regression model
    X_train, y_train: train data
    X_test, y_test: test data
    show_plot: show scatterplot ov pred vs true, optional, default=True
    Returns
    -------
    shows a scatterplot von X_test vs X_pred with a diagonal line, indicating identity
    prints r2_score and mean_squared_error
    """
    from sklearn.metrics import r2_score
    from sklearn.metrics import mean_squared_error
    model = model
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print('R2 = %0.4f' %(r2_score(y_test, y_pred)))
    if show_plot == True:
        plt.figure(figsize=(6,6))
        ax = sns.scatterplot(x=y_test, y=y_pred)
        ax.set(xlabel='y_test', ylabel='y_pred')
        ls = np.linspace(min(y_test), max(y_test), 100)
        plt.plot(ls, ls, color='black', linestyle='dashed')
        ax.set_title(model.__class__.__name__)
        plt.show()
    return (model)
 def show_pred_on_synth(model, X, y, X_synth, param_str):
    """ shows behavoiur of univariate ML regression on synthetic dataset
    Parameters
    ----------
    model: a parametrized regression model
    X, y: data for univariate regression
    X_synth: synthetic Feature
    param_str: parameter description for title
    seed (None): random seet for split
    Returns
    -------
    a scatterplot von X, y, with the prediction values for X_synth
    """
    model.fit(X.to_numpy(), y)
    y_pred = model.predict(X_synth)
    ax = sns.scatterplot(x=X['X'], y=y)
    ax = sns.lineplot(x=X_synth[:,0], y=y_pred, color='orange')
    ax.set_title(model.__class__.__name__ + ' : ' + param_str)
    ax.set(xlabel='X', ylabel='y')
    plt.show()
@@ -0,0 +1,57 @@
 import matplotlib.pyplot as plt
 import numpy as np
 import seaborn as sns
 from bfh_cas_pml import prep_data
 from pathlib import Path
 from sklearn.ensemble import RandomForestClassifier
 DATA = Path(__file__).resolve().parent.parent / "data" / "bank_data_prep.csv"
 def sweep(param_name, params, X_train, y_train, X_test, y_test):
    """Ein Sweep über eine min_impurity_decrease-Range → Liste der Test-Scores."""
    model = RandomForestClassifier(random_state=1234, n_jobs=-1)
    scores = []
    for p in params:
        model.set_params(**{param_name: p})  # dict-unpacking statt fixem Keyword
        model.fit(X_train, y_train)
        scores.append(model.score(X_test, y_test))
    return scores
 def report(params, scores, name):
    """Besten Score + Parameter in die Konsole, Kurve + Peak-Marker plotten."""
    # find best score and best param
    best_p = params[scores.index(max(scores))]
    best_s = max(scores)
    print(f"best_score: {name} -> {best_s}")
    print(f"best_param: {name} -> {best_p}")
    # plot
    plt.figure()  # eigene Figur pro Sweep
    sns.lineplot(x=params, y=scores)
    plt.scatter(best_p, best_s, color="black", zorder=5)  # Peak markieren
    plt.xlabel(name)
    plt.ylabel("accuracy")
    plt.title("random forest parameter tuning")
    plt.savefig(f"{name}.png", dpi=120, bbox_inches="tight")
 def main():
    X_train, X_test, y_train, y_test = prep_data(str(DATA), "y", seed=1234)
    sweeps = [
        ("n_estimators", range(100, 500, 50)),
        ("max_features", range(1, 11)),
        ("min_impurity_decrease", np.arange(0, 0.1, 0.01)),
    ]
    for name, params in sweeps:
        scores = sweep(name, params, X_train, y_train, X_test, y_test)
        report(params, scores, name)
 if __name__ == "__main__":
    main()