# Zusammenfassung für CDS-1011 Einführung in Data Science ## Grundbegriffe | Begriff | Beschreibung | |---|---| | Daten | Beispiele: Transaktionsdaten, Log-Daten, Maschinendaten, Dokumente / Texte, Social Media, Videos, Bilder | | Data Science | Fachgebiet, welches sich mit der Gewinnung von Wissen aus Daten beschäftigt | | Artificial Intelligence | Systeme, die intelligentes Verhalten aufweisen. Indem sie ihre Umgebung analysieren und Massnahmen ergreiffen, mit einen gewissen Grad an Selbstbestimmung. Um dann bestimmte Ziele zu erreichen | | Machine Learning | Machine Learning beschäftigt sich mit der Frage, wie man Computer Programme so entwerfen kann, dass sie sich, mit Erfahrung, automatisch verbessern | | Deep Learning | Deep Learning ist eine unterkategorie von AI, die ihren Fokus auf die Erstellung von künstlichen neuronalen Netzen (KNN) setzt. KNN sind in der Lage, genaue datengestützte Entscheidungen zu treffen | |Features|Features sind die verschiedenen Attribute, die einen informationsreichen Datensatz bilden, der zum Trainieren von Modellen für maschinelles Lernen verwendet wird. Diese Merkmale werden als Eingabe für das Modell verwendet, um genaue Vorhersagen für die Labels zu treffen.| |Labels (Zielvariablen)|Ein Label, auch als Zielvariable oder abhängige Variable bezeichnet, ist die Ausgabe, für deren Vorhersage das Modell trainiert wird. Beim überwachten Lernen sind Labels die bekannten Ergebnisse, die das Modell während des Trainings mit den Eingabemerkmalen zu verknüpfen lernt.| |Parameter|Ein Parameter ist eine Variable, die während des Trainingsprozesses aus den Daten gelernt wird. Er wird verwendet, um die zugrunde liegenden Beziehungen in den Daten darzustellen und um Vorhersagen über neue Daten zu treffen.| |Hyperparameter|A hyperparameter, on the other hand, is a variable that is set before the training process begins. It controls the behaviour of the learning algorithm, such as the learning rate, the regularization strength, and the number of hidden layers in a neural network. Z.B. Anzahl Clusters bei einer Clustering Aufgabe| ## Machine Larning | Begriff | Beschreibung | |---|---| |Überwachtes Lernen|
|
|Precision (Relevanz)|Gibt den Anteil der korrekt als positiv klassifizierten Ergebnisse an der Gesamtheit der als positiv klassifizierten Ergebnisse an $\large precision = \frac{tp}{tp+fp} $|
|Recall (Sensivität)|Gibt die Wahrscheinlichkeit an, mit der ein positives Objekt korrekt als positiv klassifiziert wird. $\large recall = \frac{tp}{tp+fn} $|
|F1|Der F1-Wert ist der harmonische Mittelwert (eine Art Durchschnitt) von Precision und Recall. Dieser Messwert gleicht die Bedeutung von Precision und Recall aus und ist für Datasets mit unausgeglichenen Klassen besser geeignet als die Genauigkeit. $\large \\ f1=2*\frac{precision * recall}{precision + recall} $|
|ROC-Kurve|Bewertung der Trennschärfe eines binären Klassifikators über verschiedene Schwellenwerte.
|
|TPR (True Positive Rate)|Beschreibt, wie viele der tatsächlich positiven Beispiele korrekt erkannt wurden. Sie entspricht dem Recall. Eine TPR von 1.0 bedeutet: alle positiven Beispiele wurden richtig erkannt. $\large TPR = \frac{TP}{TP+FN} $|
|FPR (False Positive Rate)|Die FPR (False Positive Rate) misst, wie viele der negativen Beispiele fälschlich als positiv klassifiziert wurden. Eine FPR von 0.2 bedeutet: 20 % der negativen Beispiele wurden falsch als positiv erkannt. $\large FPR = \frac{FP}{FP+TN} $|
|Multiclass Classification|Multiclass Classification umfasst Datensätze mit mehreren Klassenbezeichnungen.

|
|One vs. One|Bei der One vs. One Klassifizierungsstrategie, die auf einen Datensatz mit N unterschiedlichen Klassen zugeschnitten ist, werden insgesamt N * (N-1) / 2 binäre Klassifikatoren generiert. Bei diesem Ansatz wird für jedes mögliche Klassenpaar ein binärer Klassifikator erstellt.
|
## Unsupervised Learning Clustering
|Begriff|Beschreibung|
|---|---|
|Clustering|Clustering kann als das wichtigste Problem des unüberwachten Lernens angesehen werden. Es befasst sich mit der Suche nach einer Struktur in einer Sammlung unbeschrifteter Daten. Eine grobe Definition von Clustering könnte der Prozess der Organisation von Objekten in Gruppen sein, deren Mitglieder sich in irgendeiner Weise ähneln. Ein Cluster ist daher eine Sammlung von Objekten, die sich untereinander ähneln und sich von den Objekten anderer Cluster unterscheiden.|
|Distanzmasse|Festzustellen, welche Datenpunkte innerhalb eines Clusters sich ähnlicher sind als andere. Distanzmasse werden tendenziell kleiner, je ähnlicher zwei Punkte sich sind.

|