added folder classification and file classification_mnist_demo.py added folder datasets and updated README.md to explain what python libraries need to be installed for running all the scripts

2025-11-13 12:29:37 +01:00 · 2025-11-13 12:29:37 +01:00 · cb5d0149f7
commit cb5d0149f7
parent fe9b12b374
5 changed files with 128 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,8 @@
 This reposetory is used for storing my datasets and scripts for data science.
 Install this Python libraries in your virtual environment. Use (uv) pip install ...
    numpy
    matplotlib
    openpyxl
    scikit-learn
--- a/classification/classification_mnist_demo.py
+++ b/classification/classification_mnist_demo.py
@ -0,0 +1,119 @@
 import math
 import matplotlib as mpl
 import matplotlib.pyplot as plt
 import numpy as np
 from sklearn.svm import SVC
 from sklearn.neighbors import KNeighborsClassifier
 from sklearn.multiclass import OneVsOneClassifier 
 from sklearn.multiclass import OneVsRestClassifier
 from sklearn.datasets import fetch_openml
 from sklearn.linear_model import SGDClassifier
 from sklearn.model_selection import cross_val_predict
 from sklearn.metrics import precision_score, recall_score, f1_score
 # Datensatz herunterladen
 print("✅ Datensatz herunterladen")
 mnist = fetch_openml('mnist_784', version=1, as_frame=False, parser='auto')
 mnist.keys()
 X, y = mnist["data"], mnist["target"]
 X.shape
 # Ziffer aus dem Datensatz: 5
 print("✅ Ziffer aus dem Datensatz: 5")
 some_digit = X[0]
 some_digit_image = some_digit.reshape(28, 28)
 plt.imshow(some_digit_image, cmap=mpl.cm.binary)
 plt.show()
 # Ziffer aus dem Datensatz: 0
 print("✅ Ziffer aus dem Datensatz: 0")
 some_other_digit = X[1]
 some_other_digit_image = some_other_digit.reshape(28, 28)
 plt.imshow(some_other_digit_image, cmap=mpl.cm.binary)
 plt.show()
 # Label
 print("✅ Label")
 print(y[0])
 y = y.astype(np.uint8)
 # Zahlen Matrix
 print("✅ Zahlen Matrix")
 i = 1
 for number in some_digit:
    #28 Spalten
    if i < 28:
        if number > 0:
            print("\x1b[31m{:03d}".format(math.trunc(number.item())), end = '\x1b[0m ')            
        else:            
            print("{:03d}".format(math.trunc(number.item())), end = ' ')
    else:
        print("{:03d}".format(math.trunc(number.item())))
        i = 0
    i = i+1
 # Train-Test-Split
 print("✅ Train-Test-Split")
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 # Testdaten vorbereiten für die Klassifikation der Ziffer 5
 print("✅ Testdaten vorbereiten für die Klassifikation der Ziffer 5")
 y_train_5 = (y_train == 5)
 y_test_5 = (y_test == 5)
 print(y_train_5)
 # Logistische Regression zur binären Klassifikation (Ziffer aus dem Datensatz: 5)
 print("✅ Logistische Regression zur binären Klassifikation")
 model_log = SGDClassifier(loss="log_loss", max_iter=1000, tol=1e-3, random_state=42)
 model_log.fit(X_train, y_train_5)
 model_log.predict([some_digit])
 # Support Vector Machine zur binären Klassifikation (Ziffer aus dem Datensatz: 0)
 print("✅ Support Vector Machine zur binären Klassifikation")
 model_hinge = SGDClassifier(loss="hinge", max_iter=1000, tol=1e-3, random_state=42)
 model_hinge.fit(X_train, y_train_5)
 model_hinge.predict([some_other_digit])
 # Evaluation
 print("✅ Evaluation")
 model = model_hinge
 y_train_pred = cross_val_predict(model_hinge, X_train, y_train_5, cv=3)
 y_test_pred = cross_val_predict(model_hinge, X_test, y_test_5, cv=3)
 #precision_score(y_train_5, y_train_pred)
 precision_score(y_test_5, y_test_pred)
 #recall_score(y_train_5, y_train_pred)
 recall_score(y_test_5, y_test_pred)
 #f1_score(y_train_5, y_train_pred)
 f1_score(y_test_5, y_test_pred)
 # One-versus-One (OvO)
 print("✅ One-versus-One (OvO)")
 model_ovo = OneVsOneClassifier(SVC(gamma="auto", random_state=42))
 model_ovo.fit(X_train[:100], y_train[:100])
 model_ovo.predict([some_digit])
 # One-versus-the-Rest (OvR)
 print("✅ One-versus-the-Rest (OvR)")
 model_ovr = OneVsRestClassifier(SVC(gamma="auto", random_state=42))
 model_ovr.fit(X_train[:100], y_train[:100])
 model_ovr.predict([some_digit])
 # Multilabel Classification
 print("✅ Multilabel Classification")
 y_train_large = (y_train >= 7) # grosse ziffern (7,8,9)
 y_train_odd = (y_train % 2 == 1) # ungerade = true, gerade = false
 y_multilabel = np.c_[y_train_large, y_train_odd] # 1-D array als spalte in a 2-D array konvertieren
 model_knn = KNeighborsClassifier()
 model_knn.fit(X_train, y_multilabel)
 # Multiclass Multioutput Classification
 print("✅ Multiclass Multioutput Classification")
 model_svc = SVC(gamma="auto", random_state=42)
 model_svc.fit(X_train[:1000], y_train[:1000]) # y_train, not y_train_5
 model_svc.predict([some_digit])
 model_svc.classes_
--- a/datasets/hardrock100_results_2022.xlsx
+++ b/datasets/hardrock100_results_2022.xlsx
--- a/datasets/hardrock100_results_2022_full.xlsx
+++ b/datasets/hardrock100_results_2022_full.xlsx
--- a/exercise_2.py
+++ b/exercise_2.py
@ -56,6 +56,7 @@ def main():
    df["finish_seconds"] = df["finish"].apply(time_str_to_seconds)
    # create boxplot
    df.boxplot(column=["finish_seconds"])
    plt.title("Verteilung der Zielzeiten in Sekunden")
    plt.ylabel("Sekunden")