Silhouette
This commit is contained in:
parent
ff486d73cc
commit
f1ab27b874
BIN
zusammenfassung/bilder/silhouette.png
Normal file
BIN
zusammenfassung/bilder/silhouette.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 56 KiB |
@ -312,4 +312,18 @@ $$
|
|||||||
|PCA|Principal Component Analysis ist eine Technik, mit der hochdimensionale Daten in niedrigdimensionale Daten umgewandelt werden, wobei so viele Informationen wie möglich erhalten bleiben. Sie wird zur Interpretation und Visualisierung von Daten verwendet. Die Anzahl der Variablen nimmt ab, was die weitere Analyse vereinfacht.|
|
|PCA|Principal Component Analysis ist eine Technik, mit der hochdimensionale Daten in niedrigdimensionale Daten umgewandelt werden, wobei so viele Informationen wie möglich erhalten bleiben. Sie wird zur Interpretation und Visualisierung von Daten verwendet. Die Anzahl der Variablen nimmt ab, was die weitere Analyse vereinfacht.|
|
||||||
|Teilüberwachtes Lernen (Semi-Supervised Learning)|Teilüberwachtes Lernen ist ein hybrider Ansatz des maschinellen Lernens, der sowohl überwachtes als auch unüberwachtes Lernen nutzt. Dabei wird eine kleine Menge gekennzeichneter Daten in Kombination mit einer grossen Menge ungekennzeichneter Daten zum Trainieren von Modellen verwendet. Das Ziel besteht darin, eine Funktion zu erlernen, die ähnlich wie beim überwachten Lernen anhand von Eingaben präzise Vorhersagen zu den Ausgaben trifft, jedoch mit deutlich weniger gekennzeichneten Daten.|
|
|Teilüberwachtes Lernen (Semi-Supervised Learning)|Teilüberwachtes Lernen ist ein hybrider Ansatz des maschinellen Lernens, der sowohl überwachtes als auch unüberwachtes Lernen nutzt. Dabei wird eine kleine Menge gekennzeichneter Daten in Kombination mit einer grossen Menge ungekennzeichneter Daten zum Trainieren von Modellen verwendet. Das Ziel besteht darin, eine Funktion zu erlernen, die ähnlich wie beim überwachten Lernen anhand von Eingaben präzise Vorhersagen zu den Ausgaben trifft, jedoch mit deutlich weniger gekennzeichneten Daten.|
|
||||||
|DBSCAN|DBSCAN ist ein dichtebasierter Clustering-Algorithmus, der dicht beieinander liegende Datenpunkte gruppiert und Ausreisser anhand ihrer Dichte im Merkmalsraum als Rauschen markiert. Er identifiziert Cluster als dichte Bereiche im Datenraum, die durch Bereiche mit geringerer Dichte voneinander getrennt sind. Im Gegensatz zu K-Means oder hierarchischem Clustering, bei denen davon ausgegangen wird, dass Cluster kompakt und kugelförmig sind, eignet sich DBSCAN gut für die Verarbeitung von Unregelmäßigkeiten in realen Daten, wie z. B.:<ul><li>Beliebig geformte Cluster: Cluster können jede beliebige Form annehmen, nicht nur kreisförmig oder konvex.</li><li>Rauschen und Ausreißer: Es identifiziert und behandelt Rauschpunkte effektiv, ohne sie einem Cluster zuzuordnen.</li></ul>|
|
|DBSCAN|DBSCAN ist ein dichtebasierter Clustering-Algorithmus, der dicht beieinander liegende Datenpunkte gruppiert und Ausreisser anhand ihrer Dichte im Merkmalsraum als Rauschen markiert. Er identifiziert Cluster als dichte Bereiche im Datenraum, die durch Bereiche mit geringerer Dichte voneinander getrennt sind. Im Gegensatz zu K-Means oder hierarchischem Clustering, bei denen davon ausgegangen wird, dass Cluster kompakt und kugelförmig sind, eignet sich DBSCAN gut für die Verarbeitung von Unregelmäßigkeiten in realen Daten, wie z. B.:<ul><li>Beliebig geformte Cluster: Cluster können jede beliebige Form annehmen, nicht nur kreisförmig oder konvex.</li><li>Rauschen und Ausreißer: Es identifiziert und behandelt Rauschpunkte effektiv, ohne sie einem Cluster zuzuordnen.</li></ul>|
|
||||||
|K-Means vs. Hierarchical handling compact vs. DBSCAN|Die Abbildung zeigt einen Datensatz mit Clustering-Algorithmen: K-Means und Hierarchical handling compact, sphärische Cluster mit unterschiedlicher Rauschtoleranz, während DBSCAN Cluster mit beliebiger Form und Rauschbehandlung verarbeitet. <img src="bilder/dbscan.webp" alt="DBSCAN" width="600" />|
|
|K-Means vs. Hierarchical handling compact vs. DBSCAN|Die Abbildung zeigt einen Datensatz mit Clustering-Algorithmen: K-Means und Hierarchical handling compact, sphärische Cluster mit unterschiedlicher Rauschtoleranz, während DBSCAN Cluster mit beliebiger Form und Rauschbehandlung verarbeitet. <img src="bilder/dbscan.webp" alt="DBSCAN" width="600" />|
|
||||||
|
|
||||||
|
### Silhouette Koeffizient
|
||||||
|
Der Silhouette koeffizient ist eine Kennzahl, die misst, wie gut jeder Datenpunkt in den ihm zugewiesenen Cluster passt. Er kombiniert Informationen sowohl über die Kohäsion (wie nah ein Datenpunkt an anderen Punkten in seinem eigenen Cluster liegt) als auch über die Trennung (wie weit ein Datenpunkt von Punkten in anderen Clustern entfernt ist) des Datenpunkts.
|
||||||
|
|
||||||
|
* Der Koeffizient reicht von -1 bis 1
|
||||||
|
* Ein Wert nahe 1 weist auf einen gut gruppierten Datenpunkt hin
|
||||||
|
* Ein Wert nahe 0 deutet auf überlappende Cluster hin
|
||||||
|
* Ein Wert nahe -1 weist auf einen falsch klassifizierten Datenpunkt hin
|
||||||
|
|
||||||
|
Beispiel:
|
||||||
|
|
||||||
|
<div align="center">
|
||||||
|
<img src="bilder/silhouette.png" alt="Ausganslage Silhouette Graph" width="600">
|
||||||
|
</div>
|
||||||
Loading…
x
Reference in New Issue
Block a user