chore: README korrektur

This commit is contained in:
git-sandro 2026-03-14 17:49:02 +01:00
parent 5ae8f1e663
commit ae927b07e9

View File

@ -51,7 +51,7 @@
## Explorative Datenanalyse ## Explorative Datenanalyse
|Begriff|Beschreibung| |Begriff|Beschreibung|
|---|---| |---|---|
|Explorative Datenanalyse|Explorative Datenanalyse (EDA) bezeichnet den Prozess, bei dem Daten untersucht, visualisiert und beschrieben werden, um erste Einsichten zu gewinnen, Zusammenhänge zu erkennen und Hypothesen zu formulieren — noch bevor Modellierung oder Hypothesentestsstattfinden.| |Explorative Datenanalyse|Explorative Datenanalyse (EDA) bezeichnet den Prozess, bei dem Daten untersucht, visualisiert und beschrieben werden, um erste Einsichten zu gewinnen, Zusammenhänge zu erkennen und Hypothesen zu formulieren — noch bevor Modellierung oder Hypothesentests stattfinden.|
|Mittlere quadratische Abweichung (RMSE)|<ul><li>*m* ist die Anzahl Datenpunkte im Datensatz</li><li>*h* ist die Vorhersagefunktion des Systems</li><li>*X* ist die Matrix mit den Werten sämtlicher Merkmale</li><li>*x<sup>(i)</sup>* Vektor der Werte aller Merkmale</li><li>*y<sup>(i)<sup>* Label (gewünschter Ausgabewert)</li></ul>![RMSE](bilder/rmse.png) Die mittlere quadratische Abweichung misst den durchschnittlichen quadratischen Unterschied zwischen vorhergesagten und tatsächlichen Werten und bestraft grössere Abweichungen stärker.| |Mittlere quadratische Abweichung (RMSE)|<ul><li>*m* ist die Anzahl Datenpunkte im Datensatz</li><li>*h* ist die Vorhersagefunktion des Systems</li><li>*X* ist die Matrix mit den Werten sämtlicher Merkmale</li><li>*x<sup>(i)</sup>* Vektor der Werte aller Merkmale</li><li>*y<sup>(i)<sup>* Label (gewünschter Ausgabewert)</li></ul>![RMSE](bilder/rmse.png) Die mittlere quadratische Abweichung misst den durchschnittlichen quadratischen Unterschied zwischen vorhergesagten und tatsächlichen Werten und bestraft grössere Abweichungen stärker.|
|Mittlerer absoluter Fehler (MAE)|<ul><li>*m* ist die Anzahl Datenpunkte im Datensatz</li><li>*h* ist die Vorhersagefunktion des Systems</li><li>*X* ist die Matrix mit den Werten sämtlicher Merkmale</li><li>*x<sup>(i)</sup>* Vektor der Werte aller Merkmale</li><li>*y<sup>(i)<sup>* Label (gewünschter Ausgabewert)</li></ul>![MAE](bilder/mae.png) Der mittlere absolute Fehler gibt an, wie gross die durchschnittliche absolute Differenz zwischen Vorhersagen und tatsächlichen Werten ist, ohne grössere Abweichungen zusätzlich zu gewichten.| |Mittlerer absoluter Fehler (MAE)|<ul><li>*m* ist die Anzahl Datenpunkte im Datensatz</li><li>*h* ist die Vorhersagefunktion des Systems</li><li>*X* ist die Matrix mit den Werten sämtlicher Merkmale</li><li>*x<sup>(i)</sup>* Vektor der Werte aller Merkmale</li><li>*y<sup>(i)<sup>* Label (gewünschter Ausgabewert)</li></ul>![MAE](bilder/mae.png) Der mittlere absolute Fehler gibt an, wie gross die durchschnittliche absolute Differenz zwischen Vorhersagen und tatsächlichen Werten ist, ohne grössere Abweichungen zusätzlich zu gewichten.|
|Stetige Merkmale|<ul><li>Belibigen Wert innerhalb eines Intervalls</li><li>Unendlich viele Ausprägungen</li><li>Beispiele<ul><li>Strekenlänge</li><li>Zeitintervalle</li><li>Gewicht</li></ul></li></ul>| |Stetige Merkmale|<ul><li>Belibigen Wert innerhalb eines Intervalls</li><li>Unendlich viele Ausprägungen</li><li>Beispiele<ul><li>Strekenlänge</li><li>Zeitintervalle</li><li>Gewicht</li></ul></li></ul>|
@ -307,7 +307,7 @@ $$
|Begriff|Beschreibung| |Begriff|Beschreibung|
|---|---| |---|---|
|Elbow-Method|Beim K-Means Clustering unterteilt der Algorithmus Daten in k Cluster, indem er die Abstände zwischen Punkten und ihren Clusterzentren minimiert. Die Entscheidung für das ideale k ist jedoch nicht einfach. Die Elbow-Methode hilft dabei, indem sie die Summenquadrate innerhalb der Cluster (WCSS) gegen steigende k-Werte aufträgt und nach einem Punkt sucht, an dem sich die Verbesserung verlangsamt. Dieser Punkt wird als „Elbow“ bezeichnet. <img src="bilder/elbow_method.webp" alt="Elbow Method" width="600"| |Elbow-Method|Beim K-Means Clustering unterteilt der Algorithmus Daten in k Cluster, indem er die Abstände zwischen Punkten und ihren Clusterzentren minimiert. Die Entscheidung für das ideale k ist jedoch nicht einfach. Die Elbow-Methode hilft dabei, indem sie die Summenquadrate innerhalb der Cluster (WCSS) gegen steigende k-Werte aufträgt und nach einem Punkt sucht, an dem sich die Verbesserung verlangsamt. Dieser Punkt wird als „Elbow“ bezeichnet. <img src="bilder/elbow_method.webp" alt="Elbow Method" width="600">|
|Dimensionsreduktion|Im Bereich des maschinellen Lernens ist es sinnvoll, hochdimensionale Daten einem Prozess namens Dimensionsreduktion zu unterziehen. Der Zweck dieses Prozesses besteht darin, die Anzahl der betrachteten Merkmale zu reduzieren, wobei jedes Merkmal eine Dimension ist, die die Objekte teilweise repräsentiert.| |Dimensionsreduktion|Im Bereich des maschinellen Lernens ist es sinnvoll, hochdimensionale Daten einem Prozess namens Dimensionsreduktion zu unterziehen. Der Zweck dieses Prozesses besteht darin, die Anzahl der betrachteten Merkmale zu reduzieren, wobei jedes Merkmal eine Dimension ist, die die Objekte teilweise repräsentiert.|
|PCA|Principal Component Analysis ist eine Technik, mit der hochdimensionale Daten in niedrigdimensionale Daten umgewandelt werden, wobei so viele Informationen wie möglich erhalten bleiben. Sie wird zur Interpretation und Visualisierung von Daten verwendet. Die Anzahl der Variablen nimmt ab, was die weitere Analyse vereinfacht.| |PCA|Principal Component Analysis ist eine Technik, mit der hochdimensionale Daten in niedrigdimensionale Daten umgewandelt werden, wobei so viele Informationen wie möglich erhalten bleiben. Sie wird zur Interpretation und Visualisierung von Daten verwendet. Die Anzahl der Variablen nimmt ab, was die weitere Analyse vereinfacht.|
|Teilüberwachtes Lernen (Semi-Supervised Learning)|Teilüberwachtes Lernen ist ein hybrider Ansatz des maschinellen Lernens, der sowohl überwachtes als auch unüberwachtes Lernen nutzt. Dabei wird eine kleine Menge gekennzeichneter Daten in Kombination mit einer grossen Menge ungekennzeichneter Daten zum Trainieren von Modellen verwendet. Das Ziel besteht darin, eine Funktion zu erlernen, die ähnlich wie beim überwachten Lernen anhand von Eingaben präzise Vorhersagen zu den Ausgaben trifft, jedoch mit deutlich weniger gekennzeichneten Daten.| |Teilüberwachtes Lernen (Semi-Supervised Learning)|Teilüberwachtes Lernen ist ein hybrider Ansatz des maschinellen Lernens, der sowohl überwachtes als auch unüberwachtes Lernen nutzt. Dabei wird eine kleine Menge gekennzeichneter Daten in Kombination mit einer grossen Menge ungekennzeichneter Daten zum Trainieren von Modellen verwendet. Das Ziel besteht darin, eine Funktion zu erlernen, die ähnlich wie beim überwachten Lernen anhand von Eingaben präzise Vorhersagen zu den Ausgaben trifft, jedoch mit deutlich weniger gekennzeichneten Daten.|