feature(a2): add kmeans exercises

2026-04-30 16:48:00 +02:00
parent a87b454bc5
commit 628c0a3beb
5 changed files with 4881 additions and 1285 deletions
@@ -0,0 +1,24 @@
 #import numpy as np
 from sklearn import datasets
 from sklearn.cluster import KMeans
 from sklearn import metrics
 digits = datasets.load_digits()
 # 100 samples pro ziffer
 # 64 pixel pro zahl
 print(digits.data.shape)
 #print(len(np.unique(digits.target)))
 # 10 cluster, random, n_init=1
 kmeans = KMeans(n_clusters=10, init='random', n_init=1)
 kmeans.fit(digits.data)
 print(list(zip(digits.target, kmeans.labels_)))
 print(metrics.homogeneity_score(digits.target, kmeans.labels_))
 print(metrics.completeness_score(digits.target, kmeans.labels_))
 print(metrics.adjusted_rand_score(digits.target, kmeans.labels_))
 print(metrics.silhouette_score(digits.data, kmeans.labels_))
 # auch hier ist kmeans nicht der richtige algorithmus, weil die Daten nicht schön kugelförmig verteilt sind und sich nicht gut clustern lassen
@@ -0,0 +1,28 @@
 from sklearn import datasets
 from sklearn.cluster import KMeans
 from sklearn import metrics
 iris = datasets.load_iris()
 # print 150 samples
 print(iris.target)
 # clusters=3, centroiden zufällig wählen, n_init=50
 kmeans = KMeans(n_clusters=3, init='random', n_init=50)
 # fit auf daten
 kmeans.fit(iris.data)
 # print alle daten
 #print(list(zip(iris.target, kmeans.labels_)))
 # gegenüberstellung
 print("gold standard vs. prediction")
 for target_label, predicted_label in zip(iris.target, kmeans.labels_):
    print(f'{target_label} vs. {predicted_label}')
 print(metrics.homogeneity_score(iris.target, kmeans.labels_))
 print(metrics.completeness_score(iris.target, kmeans.labels_))
 print(metrics.adjusted_rand_score(iris.target, kmeans.labels_))
 print(metrics.silhouette_score(iris.data, kmeans.labels_))
 # erkenntnis, der Algo ist nicht perfekt für diese Art von Daten!!