From bee98b90dab8c31b2a651f53552242a31f368425 Mon Sep 17 00:00:00 2001
From: TheOriginalGraLargeShrimpakaReaper <graber-michael@hotmail.com>
Date: Wed, 16 Oct 2024 20:48:05 +0200
Subject: [PATCH] adding corelation.py, corelation_old.py, README.md,
 hr_gramic.csv and sleep_gramic.csv

---
 README.md                 | 17 ++++++++++++-
 code/corelation.py        | 40 +++++++++++++++++++++++++++++
 code/corelation_old.py    | 35 ++++++++++++++++++++++++++
 code/crawler.py           | 21 ++++++++++++++++
 data/raw/hr_gramic.csv    | 53 +++++++++++++++++++++++++++++++++++++++
 data/raw/sleep_gramic.csv | 53 +++++++++++++++++++++++++++++++++++++++
 6 files changed, 218 insertions(+), 1 deletion(-)
 create mode 100644 code/corelation.py
 create mode 100644 code/corelation_old.py
 create mode 100644 code/crawler.py
 create mode 100644 data/raw/hr_gramic.csv
 create mode 100644 data/raw/sleep_gramic.csv

diff --git a/README.md b/README.md
index 846c077..24f5817 100644
--- a/README.md
+++ b/README.md
@@ -18,4 +18,19 @@ Für die folgenden Aufträge dürfen Sie je nach Vorkenntnisse beliebige Tools (
 ## Problems
 - Garmin Weekly Algorithmus unknown.
   Reverse Engineering necessery
-- Comparition between Garmin (Instict Solar 2X) and Withings (Steel HR Sport) not necessarely given
\ No newline at end of file
+- Comparition between Garmin (Instict Solar 2X) and Withings (Steel HR Sport) not necessarely given
+
+## Python Depencencis
+- 
+
+```shell
+pip install --upgrade pip
+pip install matplotlib
+pip install pandas
+pip install pybtex
+pip install requests
+pip install pyyaml
+pip install setuptools
+pip install bs4
+pip install requests
+```
\ No newline at end of file
diff --git a/code/corelation.py b/code/corelation.py
new file mode 100644
index 0000000..8cbab6c
--- /dev/null
+++ b/code/corelation.py
@@ -0,0 +1,40 @@
+import pandas as pd
+
+# Lade die CSV-Dateien
+# Datei 1 mit Semikolon (;) separiert (HR-Daten)
+hr_data = pd.read_csv('/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/hr_gramic.csv', sep=';')
+
+# Datei 2 mit Komma (,) separiert (Schlafdaten)
+sleep_data = pd.read_csv('/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/sleep_gramic.csv', sep=',')
+
+# Überprüfen der ersten Zeilen der Dateien
+print("HR-Daten (vor der Berechnung des Durchschnitts):")
+print(hr_data.head())
+
+# Berechne den Durchschnitt der HR-Daten (zwischen Ruhe und Hoch)
+# Erstelle eine neue Spalte 'avg_hr', die den Durchschnitt von 'Resting HR' und 'High HR' enthält
+hr_data['avg_hr'] = hr_data[['In Ruhe', 'Hoch']].mean(axis=1)
+
+# Überprüfen der ersten Zeilen nach dem Hinzufügen der 'avg_hr' Spalte
+print("\nHR-Daten (nach der Berechnung des Durchschnitts):")
+print(hr_data.head())
+
+# Überprüfen der ersten Zeilen der Schlafdaten
+print("\nSchlafdaten:")
+print(sleep_data.head())
+
+# Sicherstellen, dass beide Datensätze nach Woche sortiert sind
+hr_data = hr_data.sort_values(by='Datum')
+sleep_data = sleep_data.sort_values(by='Datum')
+
+# Kombinieren der beiden Datensätze anhand der 'week' Spalte
+combined_data = pd.merge(hr_data, sleep_data, on='Datum')
+
+# Überprüfen der kombinierten Daten
+print("\nKombinierte Daten:")
+print(combined_data.head())
+
+# Berechne die Korrelation zwischen dem durchschnittlichen Herzfrequenzwert ('avg_hr') und der Schlafdauer ('sleep_duration')
+correlation = combined_data['avg_hr'].corr(combined_data['Durchschnittliche Dauer'])
+
+print(f"\nDie Korrelation zwischen der durchschnittlichen Herzfrequenz und der Schlafdauer ist: {correlation}")
diff --git a/code/corelation_old.py b/code/corelation_old.py
new file mode 100644
index 0000000..a597b71
--- /dev/null
+++ b/code/corelation_old.py
@@ -0,0 +1,35 @@
+import pandas as pd
+
+# Lade die CSV-Dateien
+# Datei 1 mit Semikolon (;) separiert (HR-Daten)
+hr_data = pd.read_csv('/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/hr_gramic.csv', sep=';')
+
+# Datei 2 mit Komma (,) separiert (Schlafdaten)
+sleep_data = pd.read_csv('/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/sleep_gramic.csv', sep=',')
+
+# Überprüfen der ersten Zeilen der Dateien
+print("HR-Daten:")
+print(hr_data.head())
+
+print("\nSchlafdaten:")
+print(sleep_data.head())
+
+# Annahme: Beide Datensätze enthalten eine Spalte für Wochen (z.B. 'week')
+# und die jeweiligen Werte (z.B. 'avg_hr' für Herzfrequenz und 'sleep_duration' für Schlafdauer)
+
+# Sicherstellen, dass beide Datensätze nach Woche sortiert sind
+hr_data = hr_data.sort_values(by='Datum')
+sleep_data = sleep_data.sort_values(by='week')
+
+# Kombinieren der beiden Datensätze anhand der 'week' Spalte
+combined_data = pd.merge(hr_data, sleep_data, on='Datum')
+
+# Überprüfen der kombinierten Daten
+print("\nKombinierte Daten:")
+print(combined_data.head())
+
+# Berechne die Korrelation zwischen der durchschnittlichen Herzfrequenz (z.B. 'avg_hr')
+# und der Schlafdauer (z.B. 'sleep_duration')
+correlation = combined_data['avg_hr'].corr(combined_data['Durchschnittliche Dauer'])
+
+print(f"\nDie Korrelation zwischen der Herzfrequenz und der Schlafdauer ist: {correlation}")
diff --git a/code/crawler.py b/code/crawler.py
new file mode 100644
index 0000000..b15145f
--- /dev/null
+++ b/code/crawler.py
@@ -0,0 +1,21 @@
+import requests
+from bs4 import BeautifulSoup
+import queue
+import re
+import time
+import random
+
+urls = queue.PriorityQueue()
+urls.put((0.5, "https://www.scrapingcourse.com/ecommerce/"))
+visited_urls = []
+
+while not urls.empty():
+    _, current_url = urls.get()
+    soup = BeautifulSoup(get_html(current_url), "html.parser")
+
+    visited_urls.append(current_url)
+    crawl_page(soup, current_url, visited_urls, urls)
+
+    # if it is a product page:
+    # scrape_page(soup, url, products)
+time.sleep(random.uniform(1, 3))
\ No newline at end of file
diff --git a/data/raw/hr_gramic.csv b/data/raw/hr_gramic.csv
new file mode 100644
index 0000000..3bf5a06
--- /dev/null
+++ b/data/raw/hr_gramic.csv
@@ -0,0 +1,53 @@
+Datum;In Ruhe;Hoch
+Okt 4-10;67 bpm;130 bpm
+Sep 27 - Okt 3;67 bpm;143 bpm
+Sep 20-26;66 bpm;149 bpm
+Sep 13-19;66 bpm;144 bpm
+Sep 6-12;62 bpm;132 bpm
+Aug 30 - Sep 5;64 bpm;141 bpm
+Aug 23-29;67 bpm;150 bpm
+Aug 16-22;63 bpm;143 bpm
+Aug 9-15;69 bpm;141 bpm
+Aug 2-8;67 bpm;140 bpm
+Jul 26 - Aug 1;67 bpm;147 bpm
+Jul 19-25;69 bpm;136 bpm
+Jul 12-18;66 bpm;151 bpm
+Jul 5-11;67 bpm;146 bpm
+Jun 28 - Jul 4;66 bpm;157 bpm
+Jun 21-27;64 bpm;141 bpm
+Jun 14-20;70 bpm;145 bpm
+Jun 7-13;69 bpm;134 bpm
+Mai 31 - Jun 6;70 bpm;139 bpm
+Mai 24-30;72 bpm;142 bpm
+Mai 17-23;72 bpm;135 bpm
+Mai 10-16;71 bpm;147 bpm
+Mai 3-9;73 bpm;142 bpm
+Apr 26 - Mai 2;69 bpm;151 bpm
+Apr 19-25;61 bpm;135 bpm
+Apr 12-18;58 bpm;140 bpm
+Apr 5-11;64 bpm;131 bpm
+Mrz 29 - Apr 4;63 bpm;139 bpm
+Mrz 22-28;65 bpm;135 bpm
+Mrz 15-21;66 bpm;137 bpm
+Mrz 8-14;62 bpm;136 bpm
+Mrz 1-7;70 bpm;134 bpm
+Feb 23-29;68 bpm;144 bpm
+Feb 16-22;71 bpm;132 bpm
+Feb 9-15;65 bpm;143 bpm
+Feb 2-8;66 bpm;133 bpm
+Jan 26 - Feb 1;59 bpm;142 bpm
+Jan 19-25;62 bpm;136 bpm
+Jan 12-18;60 bpm;134 bpm
+Jan 5-11;56 bpm;139 bpm
+Dez 29, 2023 - Jan 4, 2024;59 bpm;128 bpm
+Dez 22-28, 2023;52 bpm;124 bpm
+Dez 15-21, 2023;57 bpm;133 bpm
+Dez 8-14, 2023;65 bpm;133 bpm
+Dez 1-7, 2023;69 bpm;134 bpm
+Nov 24-30, 2023;68 bpm;139 bpm
+Nov 17-23, 2023;68 bpm;143 bpm
+Nov 10-16, 2023;64 bpm;144 bpm
+Nov 3-9, 2023;63 bpm;140 bpm
+Okt 27 - Nov 2, 2023;57 bpm;133 bpm
+Okt 20-26, 2023;55 bpm;138 bpm
+Okt 13-19, 2023;50 bpm;121 bpm
diff --git a/data/raw/sleep_gramic.csv b/data/raw/sleep_gramic.csv
new file mode 100644
index 0000000..90d5bfc
--- /dev/null
+++ b/data/raw/sleep_gramic.csv
@@ -0,0 +1,53 @@
+﻿Datum,Ø Score,Ø Qualität,Durchschnittliche Dauer,Ø Schlafenszeit,Ø Aufstehzeit
+Okt 10-16,46,Schlecht,6h 11min,1:28,7:50
+Okt 3-9,56,Schlecht,6h 34min,0:33,7:22
+Sep 26 - Okt 2,52,Schlecht,6h 23min,0:00,6:37
+Sep 19-25,59,Schlecht,6h 41min,0:27,7:16
+Sep 12-18,59,Schlecht,6h 18min,0:48,7:12
+Sep 5-11,55,Schlecht,6h 19min,0:56,7:22
+Aug 29 - Sep 4,66,Ausreichend,7h 1min,0:21,7:31
+Aug 22-28,57,Schlecht,6h 17min,0:35,6:59
+Aug 15-21,72,Ausreichend,6h 36min,0:38,7:25
+Aug 8-14,56,Schlecht,5h 45min,0:16,6:06
+Aug 1-7,64,Ausreichend,7h 4min,0:39,8:10
+Jul 25-31,61,Ausreichend,6h 52min,0:40,7:56
+Jul 18-24,54,Schlecht,6h 26min,2:16,9:19
+Jul 11-17,74,Ausreichend,7h 10min,0:06,7:26
+Jul 4-10,58,Schlecht,7h 35min,0:45,9:05
+Jun 27 - Jul 3,60,Ausreichend,6h 8min,1:22,7:42
+Jun 20-26,69,Ausreichend,6h 30min,0:19,6:58
+Jun 13-19,59,Schlecht,6h 1min,0:25,6:33
+Jun 6-12,60,Ausreichend,6h 22min,0:02,6:30
+Mai 30 - Jun 5,60,Ausreichend,6h 33min,0:34,7:15
+Mai 23-29,51,Schlecht,6h 47min,0:56,7:54
+Mai 16-22,50,Schlecht,5h 51min,1:13,7:08
+Mai 9-15,55,Schlecht,6h 21min,0:58,7:23
+Mai 2-8,40,Schlecht,5h 36min,0:39,6:19
+Apr 25 - Mai 1,55,Schlecht,6h 2min,1:18,7:26
+Apr 18-24,56,Schlecht,6h 28min,3:11,9:55
+Apr 11-17,56,Schlecht,6h 17min,1:23,7:51
+Apr 4-10,62,Ausreichend,6h 18min,0:39,7:10
+Mrz 28 - Apr 3,68,Ausreichend,6h 50min,1:45,8:51
+Mrz 21-27,60,Ausreichend,6h 9min,0:56,7:13
+Mrz 14-20,54,Schlecht,6h 11min,1:03,7:24
+Mrz 7-13,54,Schlecht,6h 22min,0:49,7:17
+Feb 29 - Mrz 6,50,Schlecht,6h 4min,0:56,7:09
+Feb 22-28,61,Ausreichend,7h 11min,0:08,7:25
+Feb 15-21,44,Schlecht,6h 58min,0:19,7:51
+Feb 8-14,50,Schlecht,8h 17min,0:09,8:47
+Feb 1-7,43,Schlecht,6h 12min,1:06,7:25
+Jan 25-31,57,Schlecht,7h 21min,1:17,8:40
+Jan 18-24,51,Schlecht,6h 25min,0:56,7:26
+Jan 11-17,50,Schlecht,6h 27min,1:36,8:12
+Jan 4-10,59,Schlecht,6h 44min,1:26,8:24
+Dez 28, 2023 - Jan 3, 2024,54,Schlecht,7h 2min
+Dez 21-27, 2023,55,Schlecht,7h 16min,0:38
+Dez 14-20, 2023,56,Schlecht,7h 17min,0:31
+Dez 7-13, 2023,44,Schlecht,7h 53min,23:46
+Nov 30 - Dez 6, 2023,48,Schlecht,6h 51min,0:33
+Nov 23-29, 2023,48,Schlecht,7h 11min,0:21
+Nov 16-22, 2023,53,Schlecht,7h 7min,0:23
+Nov 9-15, 2023,47,Schlecht,7h 5min,0:19
+Nov 2-8, 2023,50,Schlecht,6h 2min,0:00
+Okt 26 - Nov 1, 2023,59,Schlecht,6h 39min,0:14
+Okt 19-25, 2023,48,Schlecht,6h 17min,0:46
\ No newline at end of file