cds_introduction_data_scien.../code/corelation.py

import pandas as pd

# Lade die CSV-Dateien
# Datei 1 mit Semikolon (;) separiert (HR-Daten)
hr_data = pd.read_csv('/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/hr_gramic.csv', sep=';')

# Datei 2 mit Komma (,) separiert (Schlafdaten)
sleep_data = pd.read_csv('/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/sleep_gramic.csv', sep=',')

# Überprüfen der ersten Zeilen der Dateien
print("HR-Daten (vor der Berechnung des Durchschnitts):")
print(hr_data.head())

# Berechne den Durchschnitt der HR-Daten (zwischen Ruhe und Hoch)
# Erstelle eine neue Spalte 'avg_hr', die den Durchschnitt von 'Resting HR' und 'High HR' enthält
hr_data['avg_hr'] = hr_data[['In Ruhe', 'Hoch']].mean(axis=1)

# Überprüfen der ersten Zeilen nach dem Hinzufügen der 'avg_hr' Spalte
print("\nHR-Daten (nach der Berechnung des Durchschnitts):")
print(hr_data.head())

# Überprüfen der ersten Zeilen der Schlafdaten
print("\nSchlafdaten:")
print(sleep_data.head())

# Sicherstellen, dass beide Datensätze nach Woche sortiert sind
hr_data = hr_data.sort_values(by='Datum')
sleep_data = sleep_data.sort_values(by='Datum')

# Kombinieren der beiden Datensätze anhand der 'week' Spalte
combined_data = pd.merge(hr_data, sleep_data, on='Datum')

# Überprüfen der kombinierten Daten
print("\nKombinierte Daten:")
print(combined_data.head())

# Berechne die Korrelation zwischen dem durchschnittlichen Herzfrequenzwert ('avg_hr') und der Schlafdauer ('sleep_duration')
correlation = combined_data['avg_hr'].corr(combined_data['Durchschnittliche Dauer'])

print(f"\nDie Korrelation zwischen der durchschnittlichen Herzfrequenz und der Schlafdauer ist: {correlation}")
adding corelation.py, corelation_old.py, README.md, hr_gramic.csv and sleep_gramic.csv 2024-10-16 20:48:05 +02:00			`import pandas as pd`

			`# Lade die CSV-Dateien`
			`# Datei 1 mit Semikolon (;) separiert (HR-Daten)`
			`hr_data = pd.read_csv('/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/hr_gramic.csv', sep=';')`

			`# Datei 2 mit Komma (,) separiert (Schlafdaten)`
			`sleep_data = pd.read_csv('/home/gra/PycharmProjects/cds_introduction_data_science_assignment/data/raw/sleep_gramic.csv', sep=',')`

			`# Überprüfen der ersten Zeilen der Dateien`
			`print("HR-Daten (vor der Berechnung des Durchschnitts):")`
			`print(hr_data.head())`

			`# Berechne den Durchschnitt der HR-Daten (zwischen Ruhe und Hoch)`
			`# Erstelle eine neue Spalte 'avg_hr', die den Durchschnitt von 'Resting HR' und 'High HR' enthält`
			`hr_data['avg_hr'] = hr_data[['In Ruhe', 'Hoch']].mean(axis=1)`

			`# Überprüfen der ersten Zeilen nach dem Hinzufügen der 'avg_hr' Spalte`
			`print("\nHR-Daten (nach der Berechnung des Durchschnitts):")`
			`print(hr_data.head())`

			`# Überprüfen der ersten Zeilen der Schlafdaten`
			`print("\nSchlafdaten:")`
			`print(sleep_data.head())`

			`# Sicherstellen, dass beide Datensätze nach Woche sortiert sind`
			`hr_data = hr_data.sort_values(by='Datum')`
			`sleep_data = sleep_data.sort_values(by='Datum')`

			`# Kombinieren der beiden Datensätze anhand der 'week' Spalte`
			`combined_data = pd.merge(hr_data, sleep_data, on='Datum')`

			`# Überprüfen der kombinierten Daten`
			`print("\nKombinierte Daten:")`
			`print(combined_data.head())`

			`# Berechne die Korrelation zwischen dem durchschnittlichen Herzfrequenzwert ('avg_hr') und der Schlafdauer ('sleep_duration')`
			`correlation = combined_data['avg_hr'].corr(combined_data['Durchschnittliche Dauer'])`

			`print(f"\nDie Korrelation zwischen der durchschnittlichen Herzfrequenz und der Schlafdauer ist: {correlation}")`