feature: add algorithm notes and linter stuff

2026-05-28 15:47:05 +02:00
parent 1410c6c990
commit 5e4151d261
2 changed files with 52 additions and 1 deletions
@@ -138,6 +138,7 @@ def e42_clean_names(df: pd.DataFrame) -> pd.DataFrame:
    df.info()
    return df

+
 if __name__ == "__main__":
    data = load()
    # Data Frame
@@ -158,4 +159,6 @@ if __name__ == "__main__":
    data = e42_clean_names(data)
    # E4.3 Standardisieren: kein Bedarf (modellabhängig, gehört ans Training)
    data.to_csv(OUT, index=False)
-    print(f"Fertig: {OUT} geschrieben ({data.shape[0]} Zeilen, {data.shape[1]} Spalten)")
+    print(
+        f"Fertig: {OUT} geschrieben ({data.shape[0]} Zeilen, {data.shape[1]} Spalten)"
+    )
@@ -365,3 +365,51 @@
 - Modelanwendung
    - Das Modell bekommt neue unbekannte Daten
    - Macht eine Vorhersage basierend auf den Trainingsdaten
+
+## Algorithmen Übersicht
+
+- lineare Modelle
+- Baumverfahren
+- Ensemble-Verfahren
+- Suport Vector Machines
+- Naive Bayes
+- k-Nearest Neighbors
+- Neuronale Netze
+
+## kNN: k Nearest Neighbors
+
+- Ist sehr intuitiv
+- Berechnet man anhand von Distanzen
+    - Kosinus Distanz
+    - Manhattan Distanz
+    - Euklidische Distanz
+- k Nachbarn auswählen (k ist eine natürliche Zahl) die berücksichtig werden
+    - einer der wichtigsten Schritte bei diesem Modell
+    - schlecht gewähltes k führt zu Over- oder Underfitting
+    - ist abhänig von der Datenmenge
+- entscheidung treffen
+    - Klassifikation: Mehrheit gewinnt
+    - Regression: Durchschnitt der Nachbaren
+- Grundprinzip
+    - kelines k -> Overfitting -> Modell reagiert auf zu viele Punkte
+    - grosses k -> Underfitting -> Modell wird zu grob
+- Vorteile
+    - Einfachheit
+- Nachteile
+    - langsames Training
+    - viel Rechenaufwand
+- kNN wid vor allem dort eingesetzt wo die Ähnlichkeit zwischen Datenpunkten eine grosse Rolle spielt!
+- kNN ist kein Clusterin Algorithmus aber es kann ähnliche Ergebnisse liefern
+- kNN funktioniert am besten, wenn Daten übersichtlich, niederdimensional und gut skaliert sind
+
+## kNN mit scikit-learn
+
+- kNN ist ein Klassifikator, das generelle Vorgehen ist wie folgt
+1. laden der Daten
+2. auftrennen in feature Matrix (X) und Traget Vektor (y): Features - Target - Split
+3. auftrennen von X und y in trainingsset (X_train, y_train) und Testset (X_Test und y_test)
+4. importieren der Trainingsfunktion
+5. definieren des zu lernenden Modells mit gewünschter Parametrisierung
+6. trainieren des Modells
+7. anwenden des Modells
+8. evaluieren der performance