cds_introduction_data_scien.../term-paper/data_gra.tex

59 lines
3.6 KiB
TeX

%! Author = gra
%! Date = 24.10.24
% Preamble
\subsection{Datenbeschaffung Michael}\label{subsec:datenbeschaffung-michael-graber}
\subsubsection{Datenquelle}
Quelle waren Daten aus dem Garmin Connect Portal.\\
Die Daten selber stammen zu einem kleinen Teil von einer Garmin f\=enix 3 Saphir HR, einer Garmin Instinct Solar 2 und einer Garmin Instinct Solar 2X.\\
Da die Garmin f\=enix 3 Saphir noch keine REM-Daten zur verfügung stellte, konnte nur die Schlafdauer betrachtet werden.\\
%Eine Mischung aus den f\=enix 3 Saphir HR Schlafdaten mit Wach-, Leicht- und Tiefschlafphasen und den Instinct Solar 2 / 2X Schlafdaten mit REM-, Wach-, Leicht- und Tiefschlafphasen würde zu einem verfälschten Resultat führen.\\\\
%Zwischen der f\=enix 3 Saphir HR und der Instinct Solar 2 / 2X liegt zudem ein Altersunterschied von mehr als sieben Jahren.
%Da alle drei Sportuhren keine Medizinalprodukte sind und daher keiner genormten Eichung unterliegen, besteht eine gewisse Vergleichsunschärfe.
%Mit der Konzentatrion auf die Schlafdauer beschränkt sich diese Unschärfe nur auf die HR-Daten.
Für HR-Daten stellt Garmin keinen csv-Export zur Verfügung.\\
Entsprechend musste die Daten manuell aus dem Web GUI von Garmin Connect kopiert werden.\\\\
Garmin Connect bietet nur Schlaf- und HR-Daten, die als Wochendurchschnitt gespeichert sind.
%Um Daten pro Tag zu erhalten, müsste auf eine kostenpflichtige API zurückgegriffen werden.
\subsubsection{Datenqualität}
Die Daten der Wochen der Schlaf- und HR-Daten korrelieren nicht miteinander.\\
Hinzu kommt, dass Garmin Daten aus dem Vorjahr mit dem Jahr angibt, die aus dem aktuellen nicht.%:
%\begin{figure}[H]
% \centering
% \subfloat{{\includegraphics[width=0.43\linewidth]{../media/gra/gramic_hr_data_dates} }}%
% \qquad
% \subfloat{{\includegraphics[width=0.4\linewidth]{../media/gra/gramic_sleep_data_dates} }}%
% \caption{ Datumsaufbau HR- und Schlafdaten}
% \label{fig:gra-date_differences}
%\end{figure}
Des Weiteren ist das csv mit den Schlafdaten Kommasepariert,
das Jahr 2023 wird ebenfalls mit einem Komma getrennt.
Als resultat haben alle Datensätze ab 2023 eine weitere Spalte.
%\begin{figure}[H]
% \centering
% \includegraphics[width=0.4\linewidth]{../media/gra/gramic_sleep_data_data_encoding}
% \caption{Michael Graber - csv Kodierung}
% \label{fig:gra-sleep-data-csv-encoding}
%\end{figure}
\subsubsection{Datenbereinigung}
Mit einem Python Skript wurden die Daten bereinigt.\\
Dazu wurde anhand des Datumsbereichs und dem Jahr (dort wo kein Jahr angegeben wurde, galt das aktuelle Jahr) die Kalenderwoche ermittelt.
So können beide Datensätze miteinander kombiniert werden.\\
Der nächste Schritt bestand darin, bei den HR-Daten, dass \guillemotleft bpm\guillemotright zu entfernen, um die Werte Dezimalzahl umzuwandeln.\\
In einem nächsten Schritt müssen die Ruhe- und Aktivdaten zu einem Durchschnitt gerechnet werden.
Die so bereinigten Daten werden als csv-Datei zwischengespeichert.%:
%\begin{figure}[H]
% \centering
% \subfloat{{\includegraphics[width=0.3\linewidth]{../media/gra/gramic_hr_data_cleaned} }}%
% \qquad
% \subfloat{{\includegraphics[width=0.5\linewidth]{../media/gra/gramic_sleep_data_cleaned} }}%
% \caption{ Bereinigte HR- und Schlafdaten}
% \label{fig:gra-cleaned-datas}
%\end{figure}
In einem letzten Schritt wurden die beiden Datensätze kombiniert und ebenfalls als csv-Datei zwischengespeichert.%:
%\begin{figure}[H]
% \centering
% \includegraphics[width=0.4\linewidth]{../media/gra/gramic_combined_data}
% \caption{Michael Graber - Kombinierte Daten als csv}
% \label{fig:gra-combined-data}
%\end{figure}