cds_introduction_data_scien.../code/corelation.py

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from datetime import datetime

# Manuelle Zuordnung der Monatsnamen von Deutsch auf Englisch
month_translation = {
    'Jan': 'Jan', 'Feb': 'Feb', 'Mär': 'Mar', 'Mrz': 'Mar', 'Apr': 'Apr', 'Mai': 'May', 'Jun': 'Jun',
    'Jul': 'Jul', 'Aug': 'Aug', 'Sep': 'Sep', 'Okt': 'Oct', 'Nov': 'Nov', 'Dez': 'Dec'
}


# Funktion, um Datumsbereiche wie 'Mrz 29-Apr 4', 'Dez 22-28 2023' oder 'Dez 28' in Kalenderwoche und Jahr zu konvertieren
def convert_to_week_and_year(date_range_str):
    # Entferne zusätzliche Leerzeichen um den Bindestrich herum und entferne Kommas
    date_range_str = date_range_str.replace(" - ", "-").replace(",", "")

    # Prüfen, ob das Format nur einen Tag und Monat enthält (z.B. 'Dez 28')
    if "-" not in date_range_str and len(date_range_str.split(" ")) == 2:
        # Nur ein Datum (Monat und Tag)
        month_str, day_str = date_range_str.split(" ")
        day = int(day_str.strip())
        year_str = str(datetime.now().year)  # Verwende das aktuelle Jahr

        # Konvertiere den deutschen Monatsnamen in den englischen
        if month_str in month_translation:
            month_str = month_translation[month_str]

        # Konvertiere das Datum
        start_date = datetime.strptime(f"{month_str} {day} {year_str}", "%b %d %Y")

        # Berechne die Kalenderwoche und das Jahr
        week_number = start_date.isocalendar()[1]
        year = start_date.year

        return f"W{week_number}-{year}"

    # Prüfen, ob das Jahr am Ende steht (z.B. 'Dez 22-28 2023')
    if date_range_str[-4:].isdigit():
        # Jahr am Ende des Datums
        year_str = date_range_str[-4:]
        date_range_str = date_range_str[:-5]  # Entferne das Jahr aus der Datumsangabe
    else:
        # Kein Jahr am Ende -> nutze das aktuelle Jahr
        year_str = str(datetime.now().year)

    # Splitte den Datumsbereich in Start- und Endteil
    start_part, end_part = date_range_str.split("-")

    # Verarbeite den Startteil
    start_parts = start_part.split(" ")
    start_month_str = start_parts[0]
    start_day = int(start_parts[1].strip())  # Nimm den Starttag und entferne etwaige Leerzeichen

    # Verarbeite den Endteil
    end_parts = end_part.split(" ")

    # Verarbeite das Enddatum, basierend darauf, ob der Endteil das Jahr enthält
    if len(end_parts) == 2:  # Fall: 'Apr 4'
        end_month_str = end_parts[0]
        end_day = int(end_parts[1].strip())
    else:
        # Fall: kein Monat -> nur Tag (z.B. '28' im Format 'Dez 22-28 2023')
        end_month_str = start_month_str
        end_day = int(end_parts[0].strip())

    # Konvertiere den deutschen Monatsnamen in den englischen für beide Monate
    if start_month_str in month_translation:
        start_month_str = month_translation[start_month_str]
    if end_month_str in month_translation:
        end_month_str = month_translation[end_month_str]

    try:
        # Konvertiere das Startdatum in ein Datum
        start_date = datetime.strptime(f"{start_month_str} {start_day} {year_str}", "%b %d %Y")
    except ValueError:
        raise ValueError(f"Ungültiges Startdatum: {start_month_str} {start_day} {year_str}")

    # Berechne die Kalenderwoche und das Jahr basierend auf dem Startdatum
    week_number = start_date.isocalendar()[1]
    year = start_date.year

    return f"W{week_number}-{year}"  # Gib Kalenderwoche und Jahr im Format W-YYYY zurück


# Datei Pfade
hr_data_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/hr_gramic.csv'
sleep_data_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/sleep_gramic.csv'
hr_clean_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/sandbox/hr_data_clean.csv'
sleep_clean_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/sandbox/sleep_data_clean.csv'
combined_data_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/sandbox/combined_data.csv'

# Schritt 1: Lade die HR-Daten (mit Semikolon separiert) und entferne 'bpm'
hr_data = pd.read_csv(hr_data_path, sep=';')

# Entferne 'bpm' und konvertiere die Werte in numerische Daten
hr_data['In Ruhe'] = hr_data['In Ruhe'].str.replace(' bpm', '').astype(float)
hr_data['Hoch'] = hr_data['Hoch'].str.replace(' bpm', '').astype(float)

# Konvertiere die Spalte 'Datum' in Kalenderwoche (KW und Jahr)
hr_data['Woche'] = hr_data['Datum'].apply(convert_to_week_and_year)

# Berechne den Durchschnitt der Herzfrequenzdaten (In Ruhe und Hoch)
hr_data['avg_hr'] = hr_data[['In Ruhe', 'Hoch']].mean(axis=1)

# Speichere nur die Spalten 'Woche' und 'avg_hr' in einer neuen CSV-Datei
hr_data_clean = hr_data[['Woche', 'avg_hr']]
hr_data_clean.to_csv(hr_clean_path, index=False)

# Schritt 2: Lade die Schlafdaten (mit Komma separiert)
sleep_data = pd.read_csv(sleep_data_path, sep=',')

# Konvertiere die Spalte 'Datum' in Kalenderwoche (KW und Jahr)
sleep_data['Woche'] = sleep_data['Datum'].apply(convert_to_week_and_year)

# Speichere nur die Spalten 'Woche' und 'Durchschnittliche Dauer' in einer neuen CSV-Datei
sleep_data_clean = sleep_data[['Woche', 'Durchschnittliche Dauer']]
sleep_data_clean.to_csv(sleep_clean_path, index=False)

# Schritt 3: Kombiniere die HR- und Schlafdaten basierend auf der 'Woche'
combined_data = pd.merge(hr_data_clean, sleep_data_clean, on='Woche', how='inner')

# Speichere das kombinierte Dataset in einer neuen CSV-Datei
combined_data.to_csv(combined_data_path, index=False)

# Schritt 4: Berechne die Korrelation zwischen avg_hr und der Schlafdauer
correlation = combined_data['avg_hr'].corr(combined_data['Durchschnittliche Dauer'])
print(f"Die Korrelation zwischen der durchschnittlichen Herzfrequenz und der Schlafdauer ist: {correlation}")

# Schritt 5: Visualisiere den Zusammenhang zwischen Herzfrequenz und Schlafdauer
plt.figure(figsize=(10, 6))
plt.scatter(combined_data['avg_hr'], combined_data['Durchschnittliche Dauer'], color='blue', label='Datenpunkte')
plt.title('Zusammenhang zwischen Herzfrequenz (Durchschnitt) und Schlafdauer')
plt.xlabel('Durchschnittliche Herzfrequenz (bpm)')
plt.ylabel('Schlafdauer (Stunden)')
plt.grid(True)

# Linie zur Visualisierung des Trends hinzufügen
m, b = np.polyfit(combined_data['avg_hr'], combined_data['Durchschnittliche Dauer'], 1)
plt.plot(combined_data['avg_hr'], m * combined_data['avg_hr'] + b, color='red',
         label=f'Trendlinie (Kor = {correlation:.2f})')

plt.legend()
plt.show()
adding corelation.py, corelation_old.py, README.md, hr_gramic.csv and sleep_gramic.csv 2024-10-16 20:48:05 +02:00			`import pandas as pd`
edit corelation.py and add hr_data_cleaned.csv 2024-10-16 21:15:23 +02:00			`import matplotlib.pyplot as plt`
			`import numpy as np`
			`from datetime import datetime`

			`# Manuelle Zuordnung der Monatsnamen von Deutsch auf Englisch`
			`month_translation = {`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00			`'Jan': 'Jan', 'Feb': 'Feb', 'Mär': 'Mar', 'Mrz': 'Mar', 'Apr': 'Apr', 'Mai': 'May', 'Jun': 'Jun',`
edit corelation.py and add hr_data_cleaned.csv 2024-10-16 21:15:23 +02:00			`'Jul': 'Jul', 'Aug': 'Aug', 'Sep': 'Sep', 'Okt': 'Oct', 'Nov': 'Nov', 'Dez': 'Dec'`
			`}`


edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Funktion, um Datumsbereiche wie 'Mrz 29-Apr 4', 'Dez 22-28 2023' oder 'Dez 28' in Kalenderwoche und Jahr zu konvertieren`
			`def convert_to_week_and_year(date_range_str):`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:47:31 +02:00			`# Entferne zusätzliche Leerzeichen um den Bindestrich herum und entferne Kommas`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00			`date_range_str = date_range_str.replace(" - ", "-").replace(",", "")`

edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:52:26 +02:00			`# Prüfen, ob das Format nur einen Tag und Monat enthält (z.B. 'Dez 28')`
			`if "-" not in date_range_str and len(date_range_str.split(" ")) == 2:`
			`# Nur ein Datum (Monat und Tag)`
			`month_str, day_str = date_range_str.split(" ")`
			`day = int(day_str.strip())`
			`year_str = str(datetime.now().year) # Verwende das aktuelle Jahr`

			`# Konvertiere den deutschen Monatsnamen in den englischen`
			`if month_str in month_translation:`
			`month_str = month_translation[month_str]`

			`# Konvertiere das Datum`
			`start_date = datetime.strptime(f"{month_str} {day} {year_str}", "%b %d %Y")`

edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Berechne die Kalenderwoche und das Jahr`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:52:26 +02:00			`week_number = start_date.isocalendar()[1]`
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`year = start_date.year`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:52:26 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`return f"W{week_number}-{year}"`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:52:26 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:50:23 +02:00			`# Prüfen, ob das Jahr am Ende steht (z.B. 'Dez 22-28 2023')`
			`if date_range_str[-4:].isdigit():`
			`# Jahr am Ende des Datums`
			`year_str = date_range_str[-4:]`
			`date_range_str = date_range_str[:-5] # Entferne das Jahr aus der Datumsangabe`
			`else:`
			`# Kein Jahr am Ende -> nutze das aktuelle Jahr`
			`year_str = str(datetime.now().year)`

edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00			`# Splitte den Datumsbereich in Start- und Endteil`
			`start_part, end_part = date_range_str.split("-")`

			`# Verarbeite den Startteil`
			`start_parts = start_part.split(" ")`
			`start_month_str = start_parts[0]`
			`start_day = int(start_parts[1].strip()) # Nimm den Starttag und entferne etwaige Leerzeichen`

			`# Verarbeite den Endteil`
			`end_parts = end_part.split(" ")`

edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:50:23 +02:00			`# Verarbeite das Enddatum, basierend darauf, ob der Endteil das Jahr enthält`
			`if len(end_parts) == 2: # Fall: 'Apr 4'`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:47:31 +02:00			`end_month_str = end_parts[0]`
			`end_day = int(end_parts[1].strip())`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00			`else:`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:50:23 +02:00			`# Fall: kein Monat -> nur Tag (z.B. '28' im Format 'Dez 22-28 2023')`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:47:31 +02:00			`end_month_str = start_month_str`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00			`end_day = int(end_parts[0].strip())`

			`# Konvertiere den deutschen Monatsnamen in den englischen für beide Monate`
			`if start_month_str in month_translation:`
			`start_month_str = month_translation[start_month_str]`
			`if end_month_str in month_translation:`
			`end_month_str = month_translation[end_month_str]`

			`try:`
			`# Konvertiere das Startdatum in ein Datum`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:50:23 +02:00			`start_date = datetime.strptime(f"{start_month_str} {start_day} {year_str}", "%b %d %Y")`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00			`except ValueError:`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:50:23 +02:00			`raise ValueError(f"Ungültiges Startdatum: {start_month_str} {start_day} {year_str}")`
adding corelation.py, corelation_old.py, README.md, hr_gramic.csv and sleep_gramic.csv 2024-10-16 20:48:05 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Berechne die Kalenderwoche und das Jahr basierend auf dem Startdatum`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00			`week_number = start_date.isocalendar()[1]`
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`year = start_date.year`
edit corelation.py and add hr_data_cleaned.csv 2024-10-16 20:58:01 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`return f"W{week_number}-{year}" # Gib Kalenderwoche und Jahr im Format W-YYYY zurück`
adding corelation.py, corelation_old.py, README.md, hr_gramic.csv and sleep_gramic.csv 2024-10-16 20:48:05 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-16 21:15:23 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Datei Pfade`
			`hr_data_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/hr_gramic.csv'`
			`sleep_data_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/sleep_gramic.csv'`
			`hr_clean_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/sandbox/hr_data_clean.csv'`
			`sleep_clean_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/sandbox/sleep_data_clean.csv'`
			`combined_data_path = '/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/sandbox/combined_data.csv'`
adding corelation.py, corelation_old.py, README.md, hr_gramic.csv and sleep_gramic.csv 2024-10-16 20:48:05 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Schritt 1: Lade die HR-Daten (mit Semikolon separiert) und entferne 'bpm'`
			`hr_data = pd.read_csv(hr_data_path, sep=';')`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Entferne 'bpm' und konvertiere die Werte in numerische Daten`
			`hr_data['In Ruhe'] = hr_data['In Ruhe'].str.replace(' bpm', '').astype(float)`
			`hr_data['Hoch'] = hr_data['Hoch'].str.replace(' bpm', '').astype(float)`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Konvertiere die Spalte 'Datum' in Kalenderwoche (KW und Jahr)`
			`hr_data['Woche'] = hr_data['Datum'].apply(convert_to_week_and_year)`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Berechne den Durchschnitt der Herzfrequenzdaten (In Ruhe und Hoch)`
			`hr_data['avg_hr'] = hr_data[['In Ruhe', 'Hoch']].mean(axis=1)`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Speichere nur die Spalten 'Woche' und 'avg_hr' in einer neuen CSV-Datei`
			`hr_data_clean = hr_data[['Woche', 'avg_hr']]`
			`hr_data_clean.to_csv(hr_clean_path, index=False)`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Schritt 2: Lade die Schlafdaten (mit Komma separiert)`
			`sleep_data = pd.read_csv(sleep_data_path, sep=',')`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Konvertiere die Spalte 'Datum' in Kalenderwoche (KW und Jahr)`
			`sleep_data['Woche'] = sleep_data['Datum'].apply(convert_to_week_and_year)`
edit corelation.py and add hr_data_cleaned.csv 2024-10-17 20:42:54 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Speichere nur die Spalten 'Woche' und 'Durchschnittliche Dauer' in einer neuen CSV-Datei`
			`sleep_data_clean = sleep_data[['Woche', 'Durchschnittliche Dauer']]`
			`sleep_data_clean.to_csv(sleep_clean_path, index=False)`
adding corelation.py, corelation_old.py, README.md, hr_gramic.csv and sleep_gramic.csv 2024-10-16 20:48:05 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Schritt 3: Kombiniere die HR- und Schlafdaten basierend auf der 'Woche'`
			`combined_data = pd.merge(hr_data_clean, sleep_data_clean, on='Woche', how='inner')`
edit corelation.py and add hr_data_cleaned.csv 2024-10-16 21:15:23 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Speichere das kombinierte Dataset in einer neuen CSV-Datei`
			`combined_data.to_csv(combined_data_path, index=False)`
adding corelation.py, corelation_old.py, README.md, hr_gramic.csv and sleep_gramic.csv 2024-10-16 20:48:05 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Schritt 4: Berechne die Korrelation zwischen avg_hr und der Schlafdauer`
adding corelation.py, corelation_old.py, README.md, hr_gramic.csv and sleep_gramic.csv 2024-10-16 20:48:05 +02:00			`correlation = combined_data['avg_hr'].corr(combined_data['Durchschnittliche Dauer'])`
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`print(f"Die Korrelation zwischen der durchschnittlichen Herzfrequenz und der Schlafdauer ist: {correlation}")`
edit corelation.py and add hr_data_cleaned.csv 2024-10-16 21:15:23 +02:00
edit corelation.py and add hr_data_cleaned.csv 2024-10-18 09:59:08 +02:00			`# Schritt 5: Visualisiere den Zusammenhang zwischen Herzfrequenz und Schlafdauer`
edit corelation.py and add hr_data_cleaned.csv 2024-10-16 21:15:23 +02:00			`plt.figure(figsize=(10, 6))`
			`plt.scatter(combined_data['avg_hr'], combined_data['Durchschnittliche Dauer'], color='blue', label='Datenpunkte')`
			`plt.title('Zusammenhang zwischen Herzfrequenz (Durchschnitt) und Schlafdauer')`
			`plt.xlabel('Durchschnittliche Herzfrequenz (bpm)')`
			`plt.ylabel('Schlafdauer (Stunden)')`
			`plt.grid(True)`

			`# Linie zur Visualisierung des Trends hinzufügen`
			`m, b = np.polyfit(combined_data['avg_hr'], combined_data['Durchschnittliche Dauer'], 1)`
			`plt.plot(combined_data['avg_hr'], m * combined_data['avg_hr'] + b, color='red',`
			`label=f'Trendlinie (Kor = {correlation:.2f})')`

			`plt.legend()`
			`plt.show()`