refactor: rename folder structure to sort for algorithms

2026-04-30 18:59:56 +02:00
parent 9a8d59290b
commit dbc2b765a7
13 changed files with 124 additions and 54 deletions
@@ -1,24 +0,0 @@
 #import numpy as np
 from sklearn import datasets
 from sklearn.cluster import KMeans
 from sklearn import metrics
 digits = datasets.load_digits()
 # 100 samples pro ziffer
 # 64 pixel pro zahl
 print(digits.data.shape)
 #print(len(np.unique(digits.target)))
 # 10 cluster, random, n_init=1
 kmeans = KMeans(n_clusters=10, init='random', n_init=1)
 kmeans.fit(digits.data)
 print(list(zip(digits.target, kmeans.labels_)))
 print(metrics.homogeneity_score(digits.target, kmeans.labels_))
 print(metrics.completeness_score(digits.target, kmeans.labels_))
 print(metrics.adjusted_rand_score(digits.target, kmeans.labels_))
 print(metrics.silhouette_score(digits.data, kmeans.labels_))
 # auch hier ist kmeans nicht der richtige algorithmus, weil die Daten nicht schön kugelförmig verteilt sind und sich nicht gut clustern lassen
@@ -1,28 +0,0 @@
 from sklearn import datasets
 from sklearn.cluster import KMeans
 from sklearn import metrics
 iris = datasets.load_iris()
 # print 150 samples
 print(iris.target)
 # clusters=3, centroiden zufällig wählen, n_init=50
 kmeans = KMeans(n_clusters=3, init='random', n_init=50)
 # fit auf daten
 kmeans.fit(iris.data)
 # print alle daten
 #print(list(zip(iris.target, kmeans.labels_)))
 # gegenüberstellung
 print("gold standard vs. prediction")
 for target_label, predicted_label in zip(iris.target, kmeans.labels_):
    print(f'{target_label} vs. {predicted_label}')
 print(metrics.homogeneity_score(iris.target, kmeans.labels_))
 print(metrics.completeness_score(iris.target, kmeans.labels_))
 print(metrics.adjusted_rand_score(iris.target, kmeans.labels_))
 print(metrics.silhouette_score(iris.data, kmeans.labels_))
 # erkenntnis, der Algo ist nicht perfekt für diese Art von Daten!!
@@ -1,5 +1,9 @@
 """
-Use a decision tree classifier to predict flowers based on sepal and petal length/width
+Use a decisiontree classifier to predict flowers based on sepal and petal features
 - This is an example of a supervised ML algorithm
    - it has labels on the training data
    - you tell the model: this is class X during training
 """
 import matplotlib.pyplot as plt
@@ -35,4 +39,4 @@ tree.plot_tree(
    rounded=True,
    ax=ax,
 )
-fig.savefig("tree.png", dpi=150, bbox_inches="tight")
+fig.savefig("decisiontree_iris.png", dpi=150, bbox_inches="tight")
@@ -0,0 +1,60 @@
 """
 Use k-means to try to match handwritten digits and see if changing the parameters
 results in better recognition.
 - This is an example of an unsupervised ML algorithm
    - it has no labels on the training data
    - it discovers the structure on its own
    - thus the cluster numbers are arbitrary and do not correspond to the class labels
 """
 import matplotlib.pyplot as plt
 from sklearn import datasets
 from sklearn.cluster import KMeans
 from sklearn import metrics
 from sklearn.decomposition import PCA
 # get the digits dataset
 digits = datasets.load_digits()
 # 100 samples pro ziffer
 # 64 pixel pro zahl
 print(digits.data.shape)
 # ausprobieren verschiedener parameter
 # kmeans = KMeans(n_clusters=10, init="random", n_init=1)
 # kmeans = KMeans(n_clusters=10)
 kmeans = KMeans(n_clusters=10, init="k-means++", n_init=10)
 kmeans.fit(digits.data)
 print(list(zip(digits.target, kmeans.labels_)))
 print(metrics.homogeneity_score(digits.target, kmeans.labels_))
 print(metrics.completeness_score(digits.target, kmeans.labels_))
 print(metrics.adjusted_rand_score(digits.target, kmeans.labels_))
 print(metrics.silhouette_score(digits.data, kmeans.labels_))
 pca = PCA(n_components=2)
 X2d = pca.fit_transform(digits.data)
 centroids2d = pca.transform(kmeans.cluster_centers_)
 plt.figure(figsize=(10, 8))
 scatter = plt.scatter(X2d[:, 0], X2d[:, 1], c=kmeans.labels_, cmap='tab10', s=10, alpha=0.6)
 plt.scatter(centroids2d[:, 0], centroids2d[:, 1], c='red', marker='X', s=200, edgecolors='black')
 plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.1%} var)')
 plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.1%} var)')
 plt.title('K-Means on Digits (PCA projection)')
 plt.colorbar(scatter, label='Cluster')
 plt.savefig('kmeans_digits.png', dpi=150, bbox_inches='tight')
 fig, axes = plt.subplots(2, 5, figsize=(10, 4))
 for i, ax in enumerate(axes.flat):
    ax.imshow(kmeans.cluster_centers_[i].reshape(8, 8), cmap='gray_r')
    ax.set_title(f'Cluster {i}')
    ax.axis('off')
 fig.savefig('kmeans_digits_centroids.png', dpi=150, bbox_inches='tight')
 """
 Takaway:
 - Hier ist k-means nicht der richtige algorithmus, weil die Daten nicht schön kugelförmig verteilt sind und sich nicht gut clustern lassen.
 """
@@ -0,0 +1,58 @@
 """
 Aufgabe: k-means classifier verwenden um cluster im iris datenset zu finden und aufgrund von features Klassen von Samples predicten
 Erkenntnis aus dieser Aufgabe
 - der k-means Algorithmus ist nicht perfekt für diese Art von Daten geeignet
 - wahrscheinlich weil die Cluster geometrisch zu wenig kugelförmig sind
 """
 import matplotlib.pyplot as plt
 from sklearn.decomposition import PCA
 from sklearn import datasets
 from sklearn.cluster import KMeans
 from sklearn import metrics
 # iris datenset laden
 iris = datasets.load_iris()
 # print 150 samples
 print(iris.target)
 """
 Egal wie die parameter gewählt werden, die metriken sind nicht sehr gut.
 """
 # kmeans = KMeans(n_clusters=3, init="random", n_init=1)
 # kmeans = KMeans(n_clusters=3, init='random', n_init=50)
 # kmeans = KMeans(n_clusters=3, init='k-means++', n_init=10)
 kmeans = KMeans(n_clusters=3)
 # fit auf daten
 kmeans.fit(iris.data)
 # gegenüberstellung gold standard vs prediction
 print("gold standard vs. prediction")
 for target_label, predicted_label in zip(iris.target, kmeans.labels_):
    print(f"{target_label} -> {predicted_label}")
 # ausgeben aller relevanten metriken
 print(metrics.homogeneity_score(iris.target, kmeans.labels_))
 print(metrics.completeness_score(iris.target, kmeans.labels_))
 print(metrics.adjusted_rand_score(iris.target, kmeans.labels_))
 print(metrics.silhouette_score(iris.data, kmeans.labels_))
 # plot vorbereiten
 pca = PCA(n_components=2)
 X2d = pca.fit_transform(iris.data)
 centroids2d = pca.transform(kmeans.cluster_centers_)
 # plot
 plt.scatter(X2d[:, 0], X2d[:, 1], c=kmeans.labels_, cmap="viridis", s=30, alpha=0.7)
 plt.scatter(
    centroids2d[:, 0], centroids2d[:, 1], c="red", marker="X", s=200, edgecolors="black"
 )
 plt.xlabel(f"PC1 ({pca.explained_variance_ratio_[0]:.1%} var)")
 plt.ylabel(f"PC2 ({pca.explained_variance_ratio_[1]:.1%} var)")
 plt.title("K-Means on Iris (PCA projection)")
 plt.colorbar(label="Cluster")
 plt.savefig("kmeans_iris.png", dpi=150)