Als Basis dieser Analyse diente der Datensatz \("\)UCI Human Activity Recognition (HAR) Dataset\("\)~\cite{jorge_reyes-ortiz_human_2013}.
Dieser enthält Aktivitäten, gelabelt nach Sensordaten von Smartphones (Samsung Galaxy S II). Die Daten stammen von 30 Probanden im Alter von 19 bis 48 Jahren, die sechs vordefinierte Aktivitäten ausführten:
Der Datensatz wurde bereits in einen Test und Trainingsset unterteilt, wobei das Trainingsset 70\% und das Testset 30\% der Daten enthält.
Eine Datenaufbereitung war jedoch notwending, da manche Features einen für Pandas nicht eindeutigen Namen hatten.
Die folgenden zwei Features wurden als identisch gewertet:
\begin{itemize}
\item fBodyGyro-bandsEnergy()-33,40
\item fBodyGyro-bandsEnergy()-41,48
\end{itemize}
Da der Datensatz eine hohe anzahl an Features enthält, wurde eine Feature Selection durchgeführt, um die Anzahl der Features zu reduzieren. Hierzu wurde die Korrelation jedes Features mit der Aktivität berechnet und die 20 Features mit der höchsten positiven und negativen Korrelation ausgewählt.