This commit is contained in:
git-sandro 2026-01-24 09:13:17 +01:00
parent 802aa77292
commit 65f8d75d90
2 changed files with 5 additions and 0 deletions

Binary file not shown.

After

Width:  |  Height:  |  Size: 320 KiB

View File

@ -43,6 +43,11 @@
|Confirmation Bias|Bewusste/unterbewusste Selektion von Daten| |Confirmation Bias|Bewusste/unterbewusste Selektion von Daten|
|Data Cleaning & Wrangling|<ul><li>Ausreisser entfernen</li><li>Fehler beheben</li><li>Lückenhafte Merkmale (ignorieren, entfernen, ergänzen)</li></ul>| |Data Cleaning & Wrangling|<ul><li>Ausreisser entfernen</li><li>Fehler beheben</li><li>Lückenhafte Merkmale (ignorieren, entfernen, ergänzen)</li></ul>|
|Varianz|Fehler, der entsteht, weil der Lernalgorithmus überempfindlich auf kleine Änderungen in den Trainingsdaten reagiert. Gesamtfehler eines Modells wird durch die Summe von Bias-Quadrat, Varianz und Rauschen ausgedrückt: ![Varianz](bilder/varianz.png)| |Varianz|Fehler, der entsteht, weil der Lernalgorithmus überempfindlich auf kleine Änderungen in den Trainingsdaten reagiert. Gesamtfehler eines Modells wird durch die Summe von Bias-Quadrat, Varianz und Rauschen ausgedrückt: ![Varianz](bilder/varianz.png)|
|Underfitting|Modell ist zu einfach, um die in den Daten enthaltene Struktur zu erlernen. Möglichkeiten um Underfitting zu beheben: Mächtigeres Modell, Feature Selection, Hyperparameter|
|Overfitting|Modell passt sich gut auf die Trainingsdaten an, kann aber nicht Verallgemeinern. Möglichkeiten um Overfitting zu beheben: Modell vereinfachen, Anzahl Features reduzieren, Umfang der Traingsdaten erhöhen, Rauschen reduzieren, Regularisierung (Restriktionen Hyperparameter)|
|Irrelevante Features|Welche Merkmale sind relevant fürs Modell|
|Data Snooping|Data Snooping ist eine Form der statistischen Verzerrung, bei der Daten oder Analysen manipuliert werden, um künstlich statistisch signifikante Ergebnisse zu erzielen.|
|Cross Validation|Cross Validation ist eine Technik, mit der überprüft wird, wie gut ein maschinelles Lernmodell bei unbekannten Daten funktioniert, während gleichzeitig Overfitting verhindert wird. Dabei wird wie folgt vorgegangen: Der Datensatz wird in mehrere Teile aufgeteilt. Das Modell wird an einigen Teilen trainiert und an den übrigen Teilen getestet. Dieser Resampling-Prozess wird mehrfach wiederholt, wobei jeweils unterschiedliche Teile des Datensatzes ausgewählt werden. Die Ergebnisse jedes Validierungsschritts werden gemittelt, um die endgültige Leistung zu ermitteln. ![Cross Validation](bilder/cross_validation.png)|
## Explorative Datenanalyse ## Explorative Datenanalyse
## Lineare Regression ## Lineare Regression