diff --git a/zusammenfassung/bilder/cross_validation.png b/zusammenfassung/bilder/cross_validation.png new file mode 100644 index 0000000..4243f34 Binary files /dev/null and b/zusammenfassung/bilder/cross_validation.png differ diff --git a/zusammenfassung/zusammenfassung.md b/zusammenfassung/zusammenfassung.md index 039c2b4..54185f6 100644 --- a/zusammenfassung/zusammenfassung.md +++ b/zusammenfassung/zusammenfassung.md @@ -43,6 +43,11 @@ |Confirmation Bias|Bewusste/unterbewusste Selektion von Daten| |Data Cleaning & Wrangling|| |Varianz|Fehler, der entsteht, weil der Lernalgorithmus überempfindlich auf kleine Änderungen in den Trainingsdaten reagiert. Gesamtfehler eines Modells wird durch die Summe von Bias-Quadrat, Varianz und Rauschen ausgedrückt: ![Varianz](bilder/varianz.png)| +|Underfitting|Modell ist zu einfach, um die in den Daten enthaltene Struktur zu erlernen. Möglichkeiten um Underfitting zu beheben: Mächtigeres Modell, Feature Selection, Hyperparameter| +|Overfitting|Modell passt sich gut auf die Trainingsdaten an, kann aber nicht Verallgemeinern. Möglichkeiten um Overfitting zu beheben: Modell vereinfachen, Anzahl Features reduzieren, Umfang der Traingsdaten erhöhen, Rauschen reduzieren, Regularisierung (Restriktionen Hyperparameter)| +|Irrelevante Features|Welche Merkmale sind relevant fürs Modell| +|Data Snooping|Data Snooping ist eine Form der statistischen Verzerrung, bei der Daten oder Analysen manipuliert werden, um künstlich statistisch signifikante Ergebnisse zu erzielen.| +|Cross Validation|Cross Validation ist eine Technik, mit der überprüft wird, wie gut ein maschinelles Lernmodell bei unbekannten Daten funktioniert, während gleichzeitig Overfitting verhindert wird. Dabei wird wie folgt vorgegangen: Der Datensatz wird in mehrere Teile aufgeteilt. Das Modell wird an einigen Teilen trainiert und an den übrigen Teilen getestet. Dieser Resampling-Prozess wird mehrfach wiederholt, wobei jeweils unterschiedliche Teile des Datensatzes ausgewählt werden. Die Ergebnisse jedes Validierungsschritts werden gemittelt, um die endgültige Leistung zu ermitteln. ![Cross Validation](bilder/cross_validation.png)| ## Explorative Datenanalyse ## Lineare Regression