feautre(notizen): add l4 notes afternoon

2026-06-04 14:56:41 +02:00
parent cd5581ada4
commit 6d6cc9f917
1 changed files with 75 additions and 0 deletions
@@ -291,3 +291,78 @@ from sklearn.inspection import permutation_importance
 r = permutation_importance(model, X_test, y_test, n_repeats=10, random_state=1234)
 perm = pd.Series(r.importances_mean, index=X_train.columns).sort_values()
 ```
 ---
 ## RandomForest Tree
 - ist ein ensemble Lernverfahren das aus vielen einzelnen Entscheidungsbäumen besteht
 - jeder Baum trifft eine Vorhersage und der RandomForest kombiniert diese zu einer Gesamtvorhersage
 - Sammlung zufällig trainierter Entscheidungsbäume
 - Gemeinsame Entscheidung ist besser als einzelne Vorhersagen
 ### Ablauf
 1. Bootstrap-Sampling
    - Für jeden baum zufälliges Dataset ziehen (mit zurücklegen)
 2. Random Feature Selection
    - Bei jedem Split darf der Baum nur aus einer zufälligen Auswahl von Features wählen
 3. Viele Bäume trainieren
    - 100-1000 Bäume
    - jeder Baum ist schwach, zusammen sind sie stark
 4. Aggregation der Vorhersagen
    - Klassifikation (Mehrheitsvoting)
    - Regression (Durchschnitt aller Baumvorhersagen)
 ### Hyperparameter
 1. n_estimators
    - Anzahl der Bäume im Wald
    - Mehr Bäume -> stabiler, genauer aber langsamer
 2. max_depth
    - Maximale Tiefe jedes einzelnen Baums
    - Klein -> verhindert Overfitting
    - Gross -> jeder Baum wird komplexer
 3. max_features
    - Wie viele Features pro Split?
    - Klassifikation oft "sqrt"
 4. min_samples_split
    - Minimale Anzahl Samples die nötig sind um einen Split zu erzeugen
    - Höher  -> glattere, stabilere Bäume
    - Tiefer -> Mehr Splits
 5. min_samples_leaf
    - Minimale Anzahl Samples in einem Blatt
    - Höher -> robust gegen rauschen
    - Tiefer -> feinere instabilere Blätter (bei unbalancierten Daten wichtig)
 6. Bootstrap
    - Ob bootstrap-Sampling verwendet wird
    - True -> jeder Baum sieht zufällige Daten
    - False -> alle Bäume sehen dieselben Daten
 7. criterion
    - Reinheitsmass für Splits
    - Klassifikation: Gini oder entropy
    - Regression: squared_error oder absolute_error
 8. max_leaf_nodes
    - Begrenzt die Anzahl Blätter pro Baum
    - Verhindert extreme Tiefe
 9. oob_score
    - Out Of Bag validierung aktivieren
    - Liefert eine eingebaute Testgenauigkeit
    - Spart einen separaten Validierungssplit
 ### Unterschied zu DecisionTree
 - es werden viele Bäume trainiert (100-1000)
 - jeder Baum basiert auf Zufallsstichprobe
 - kein Pruning, Bäume werden voll ausgebaut
 - Vorhersage: Alle Bäume werden aus gewertet und es wird abgestimmt
 - DecistionTree, wenn
    - leicht erklärbares Modell wird benötigt
    - Daten sind einfach und Overfitting kontrollierbar ist
    - schnelle Trainings und Vorhersagezeiten
 - Random Forest, wenn
    - Maximale Genauigkeit
    - komplexe Daten, verrauscht, hochdimensional
    - Robustheit
    - Overfitting unbedingt zu vermeiden ist