| |One vs. The Rest|Beim One vs. Rest Klassifizierungsansatz, der auf einen Datensatz mit N unterschiedlichen Klassen zugeschnitten ist, werden N binäre Klassifikatoren generiert, die jeweils einer bestimmten Klasse entsprechen. Die Anzahl der Klassifikatoren entspricht der Anzahl der eindeutigen Klassenbezeichnungen, die im Datensatz vorhanden sind. One vs. the Rest

| |One vs. One|Bei der One vs. One Klassifizierungsstrategie, die auf einen Datensatz mit N unterschiedlichen Klassen zugeschnitten ist, werden insgesamt N * (N-1) / 2 binäre Klassifikatoren generiert. Bei diesem Ansatz wird für jedes mögliche Klassenpaar ein binärer Klassifikator erstellt.
One vs. the Rest

| ## Unsupervised Learning Clustering |Begriff|Beschreibung| |---|---| |Clustering|Clustering kann als das wichtigste Problem des unüberwachten Lernens angesehen werden. Es befasst sich mit der Suche nach einer Struktur in einer Sammlung unbeschrifteter Daten. Eine grobe Definition von Clustering könnte der Prozess der Organisation von Objekten in Gruppen sein, deren Mitglieder sich in irgendeiner Weise ähneln. Ein Cluster ist daher eine Sammlung von Objekten, die sich untereinander ähneln und sich von den Objekten anderer Cluster unterscheiden.| |Distanzmasse|Festzustellen, welche Datenpunkte innerhalb eines Clusters sich ähnlicher sind als andere. Distanzmasse werden tendenziell kleiner, je ähnlicher zwei Punkte sich sind.
Beispiele:

Euklidische Distanz
Minkowski Distanz
Canberra Distanz

| |Ähnlichkeitsmasse|Bei Ähnlichkeitsmassen ist es andersherum: Bei größerer Ähnlichkeit zwischen zwei Punkten steigt ihr Wert.
Beispiele:

Cosinus Similarity
Pearson Korrelationskoeffiziet
Jaccard Koeffizient

| |Euklidische Distanz|Abstand zwischen zwei Vektoren im mehrdimensionalen Raum. Bei der quadrierten euklidischen Distanz werden grosse Abstände zwishen den Vektoren stärker gewichtet als kleine Abstände. $\large d(x,y)=\sqrt{\sum_{i=1}^{n} (x_i-y_i)^2}$| ### K-Means K-Means ist einer der einfachsten Algorithmen für unüberwachtes Lernen, der das bekannte Clustering-Problem löst. Das Verfahren folgt einer einfachen und unkomplizierten Methode zur Klassifizierung eines gegebenen Datensatzes durch eine bestimmte Anzahl von Clustern, angenommen k Cluster, die a priori festgelegt sind. Die Grundidee besteht darin, k Zentren zu definieren, eines für jeden Cluster. Diese Zentren sollten auf intelligente Weise platziert werden, da unterschiedliche Positionen zu unterschiedlichen Ergebnissen führen. Daher ist es am besten, sie so weit wie möglich voneinander entfernt zu platzieren. Beispiel fünf Elemente und zwei platzierte Cluster im mehrdimensionalen Raum:

1. Quadrierte euklidische Distanz zwischen Punkte und Clusterzentren berechnen $$ d(x,y)=\sqrt{\sum_{i=1}^{n} (x_i-y_i)^2}^2 = \sum_{i=1}^{n} (x_i-y_i)^2 $$ $$ d(p1,q1)=(1-2)^2+(3-3)^2=1 $$ $$ d(p2,q1)=(2-2)^2+(4-3)^2=1 $$ $$ d(p3,q1)=(1-2)^2+(4-3)^2=2 $$ $$ d(p4,q1)=(4-2)^2+(1-3)^2=8 $$ $$ d(p5,q1)=(3-2)^2+(1-3)^2=5 $$ $$ d(p1,q2)=(1-4)^2+(3-2)^2=10 $$ $$ d(p2,q2)=(2-4)^2+(4-2)^2=8 $$ $$ d(p3,q2)=(1-4)^2+(4-2)^2=13 $$ $$ d(p4,q2)=(4-4)^2+(1-2)^2=1 $$ $$ d(p5,q2)=(3-4)^2+(1-2)^2=2 $$

||p1|p2|p3|p4|p5| |---|---|---|---|---|---| |**q1**|1|1|2|8|5| |**q2**|10|8|13|1|2|

2. Punkte mittels Distanzfunktion zu Clusterzentren zuordnen $$ q1=\{p1(1,3), p2(2,4), p3(1,4)\} $$ $$ q2=\{p4(4,1), p5(3,1)\} $$ 3. Neues Clusterzentrum berechnen $$ \frac{\sum_{i=1}^n \vec{x_i}}{n} $$ $$ \frac{ \begin{pmatrix} 1 \\ 3 \end{pmatrix} + \begin{pmatrix} 2 \\ 4 \end{pmatrix} + \begin{pmatrix} 1 \\ 4 \end{pmatrix} }{3}=\begin{pmatrix}1.3 \\3.7\end{pmatrix} $$ $$ \frac{ \begin{pmatrix} 4 \\ 1 \end{pmatrix} + \begin{pmatrix} 3 \\ 1 \end{pmatrix} }{2}=\begin{pmatrix}3.5 \\1\end{pmatrix} $$ 4. Clusterzentren neu plotten

|Begriff|Beschreibung| |---|---| |Elbow-Method|Beim K-Means Clustering unterteilt der Algorithmus Daten in k Cluster, indem er die Abstände zwischen Punkten und ihren Clusterzentren minimiert. Die Entscheidung für das ideale k ist jedoch nicht einfach. Die Elbow-Methode hilft dabei, indem sie die Summenquadrate innerhalb der Cluster (WCSS) gegen steigende k-Werte aufträgt und nach einem Punkt sucht, an dem sich die Verbesserung verlangsamt. Dieser Punkt wird als „Elbow“ bezeichnet. Elbow Method

Beliebig geformte Cluster: Cluster können jede beliebige Form annehmen, nicht nur kreisförmig oder konvex.

Rauschen und Ausreißer: Es identifiziert und behandelt Rauschpunkte effektiv, ohne sie einem Cluster zuzuordnen.