kmeans
This commit is contained in:
parent
63936f7c42
commit
84ad2855a8
BIN
zusammenfassung/bilder/k_means_graph.png
Normal file
BIN
zusammenfassung/bilder/k_means_graph.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 49 KiB |
@ -201,4 +201,49 @@ $$
|
|||||||
|Distanzmasse|Festzustellen, welche Datenpunkte innerhalb eines Clusters sich ähnlicher sind als andere. Distanzmasse werden tendenziell kleiner, je ähnlicher zwei Punkte sich sind. <br />Beispiele:<ul><li>Euklidische Distanz</li><li>Minkowski Distanz</li><li>Canberra Distanz</li></ul>|
|
|Distanzmasse|Festzustellen, welche Datenpunkte innerhalb eines Clusters sich ähnlicher sind als andere. Distanzmasse werden tendenziell kleiner, je ähnlicher zwei Punkte sich sind. <br />Beispiele:<ul><li>Euklidische Distanz</li><li>Minkowski Distanz</li><li>Canberra Distanz</li></ul>|
|
||||||
|Ähnlichkeitsmasse|Bei Ähnlichkeitsmassen ist es andersherum: Bei größerer Ähnlichkeit zwischen zwei Punkten steigt ihr Wert. <br />Beispiele:<ul><li>Cosinus Similarity</li><li>Pearson Korrelationskoeffiziet</li><li>Jaccard Koeffizient</li></ul>|
|
|Ähnlichkeitsmasse|Bei Ähnlichkeitsmassen ist es andersherum: Bei größerer Ähnlichkeit zwischen zwei Punkten steigt ihr Wert. <br />Beispiele:<ul><li>Cosinus Similarity</li><li>Pearson Korrelationskoeffiziet</li><li>Jaccard Koeffizient</li></ul>|
|
||||||
|Euklidische Distanz|Abstand zwischen zwei Vektoren im mehrdimensionalen Raum. Bei der quadrierten euklidischen Distanz werden grosse Abstände zwishen den Vektoren stärker gewichtet als kleine Abstände. $\large d(x,y)=\sqrt{\sum_{i=1}^{n} (x_i-y_i)^2}$|
|
|Euklidische Distanz|Abstand zwischen zwei Vektoren im mehrdimensionalen Raum. Bei der quadrierten euklidischen Distanz werden grosse Abstände zwishen den Vektoren stärker gewichtet als kleine Abstände. $\large d(x,y)=\sqrt{\sum_{i=1}^{n} (x_i-y_i)^2}$|
|
||||||
|||
|
|
||||||
|
### K-Means
|
||||||
|
K-Means ist einer der einfachsten Algorithmen für unüberwachtes Lernen, der das bekannte Clustering-Problem löst. Das Verfahren folgt einer einfachen und unkomplizierten Methode zur Klassifizierung eines gegebenen Datensatzes durch eine bestimmte Anzahl von Clustern, angenommen k Cluster, die a priori festgelegt sind. Die Grundidee besteht darin, k Zentren zu definieren, eines für jeden Cluster. Diese Zentren sollten auf intelligente Weise platziert werden, da unterschiedliche Positionen zu unterschiedlichen Ergebnissen führen. Daher ist es am besten, sie so weit wie möglich voneinander entfernt zu platzieren.
|
||||||
|
|
||||||
|
Beispiel fünf Elemente und zwei platzierte Cluster im mehrdimensionalen Raum:
|
||||||
|
|
||||||
|
<img src="bilder/k_means_graph.png" alt="K-Means Graph" width="500" />
|
||||||
|
|
||||||
|
1. Quadrierte euklidische Distanz zwischen Punkte und Clusterzentren berechnen
|
||||||
|
$$
|
||||||
|
d(x,y)=\sqrt{\sum_{i=1}^{n} (x_i-y_i)^2}^2 = \sum_{i=1}^{n} (x_i-y_i)^2
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p1,q1)=(1-2)^2+(3-3)^2=1
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p2,q1)=(2-2)^2+(4-3)^2=1
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p3,q1)=(1-2)^2+(4-3)^2=2
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p4,q1)=(4-2)^2+(1-3)^2=8
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p5,q1)=(3-2)^2+(1-3)^2=5
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p1,q2)=(1-4)^2+(3-2)^2=10
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p2,q2)=(2-4)^2+(4-2)^2=8
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p3,q2)=(1-4)^2+(4-2)^2=13
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p4,q2)=(4-4)^2+(1-2)^2=1
|
||||||
|
$$
|
||||||
|
$$
|
||||||
|
d(p5,q2)=(3-4)^2+(1-2)^2=1
|
||||||
|
$$
|
||||||
|
|
||||||
|
|p1|p2|p3|p4|p5|
|
||||||
|
q1|1|1|2|8|5|
|
||||||
|
q2|10|8|13|1|2|
|
||||||
Loading…
x
Reference in New Issue
Block a user