Use Case Programmierübung
Section outline
-
-
Die explorative Datenanalyse (Exploratory Data Analysis, EDA) ist ein wesentlicher Schritt, um die Struktur, die Muster und mögliche Zusammenhänge in einem Datensatz zu verstehen.
1. Überblick über den Datensatz verschaffen
Datensatz laden:
-
- Importieren Sie den Datensatz in Python, z. B. mit Pandas:
-
import pandas as pddf = pd.read_csv("daten.csv")
Erste Zeilen anzeigen:
- Nutzen Sie
df.head(), um sich die ersten Zeilen des Datensatzes anzusehen und ein Gefühl für die Struktur und den Inhalt zu bekommen. - Verwenden Sie
df.info(), um Informationen über die Anzahl der Zeilen, Spalten und die Datentypen zu erhalten - Verwenden Sie
df.shapeum die Anzahl der Zeilen und Spalten zu sehen
2. Statistische Zusammenfassung erstellen
Daten analysieren:
- Nutzen Sie df.describe(), um zentrale statistische Maße wie Mittelwert, Median, Minimum und Maximum für numerische Spalten zu berechnen
- Kategorische Daten untersuchen: Nutzen Sie
df['Spaltenname'].value_counts(), um die Häufigkeit der Werte in einer Spalte zu analysieren
3. Fehlende Werte identifizieren
- Nutzen Sie
df.isnull().sum(), um zu sehen, wie viele fehlende Werte in jeder Spalte vorhanden sind
4. Datenverteilung visualisieren
Histogramme erstellen:
- Nutzen Sie
df['Spaltenname'].hist(), um die Verteilung einer numerischen Spalte zu visualisieren - Nutzen Sie Boxplots, um Ausreißer und die Verteilung zu untersuchen
import matplotlib.pyplot as pltdf.boxplot(column='Spaltenname')plt.show()- Prüfen Sie Korrelationen zwischen numerischen Spalten mit
df.corr()
5. Einblicke und Auffälligkeiten notieren
Stellen Sie sich folgende Fragen:- Gibt es unerwartete oder ungewöhnliche Werte?
- Gibt es Ausreißer, die möglicherweise korrigiert oder ignoriert werden sollten?
- Welche Muster und Trends erkennen Sie in den Daten?
- Dokumentieren Sie Ihre Beobachtungen in einem Notizbuch oder einer Datei, um später darauf zurückgreifen zu können
6. Daten für weitere Analysen vorbereiten
Daten bereinigen:- Entfernen oder füllen Sie fehlende Werte, wenn notwendig mit
df['Spaltenname'].fillna(df['Spaltenname'].mean(), inplace=True)
Nächste Schritte
Nachdem Sie die Daten durch die explorative Analyse besser verstanden haben, können Sie spezifische Fragestellungen oder Hypothesen testen und Ihre Erkenntnisse visualisieren. Denken Sie daran: Eine gute EDA ist die Basis für jede erfolgreiche Datenanalyse! -
-
Opened: Monday, 9 December 2024, 12:00 AMDue: Monday, 16 December 2024, 12:00 AM
Aufgabe: Erstellen Sie Altersgruppen und untersuchen Sie, welche Gruppe die Smartwatches am intensivsten nutzt und welche am aktivsten ist. Berechnen Sie die Durchschnittswerte der Nutzungsdauer und der Schritte für jede Altersgruppe und visualisieren Sie die Ergebnisse.
Vorgehen:
- Erstellen Sie Altersgruppen mit geeigneten Grenzen (z. B. 18–29 Jahre, 30–44 Jahre, 45–62 Jahre).
- Gruppieren Sie die Daten basierend auf den Altersgruppen.
- Berechnen Sie die Durchschnittswerte der Spalten
Nutzungsdauer_MonateundSchritte_pro_Woche. - Visualisieren Sie die Ergebnisse mit einem Balkendiagramm.
import pandas as pd import matplotlib.pyplot as plt# Schritt 1: Altersgruppen definieren
# Definieren Sie die Altersgruppen und verwenden Sie `pd.cut`, um die Spaltenwerte in Gruppen zu unterteilen
# Beispiel: bins = [18, 29, 44, 62] und labels = ['18–29 Jahre', '30–44 Jahre', '45–62 Jahre'] # Altersgruppen erstellen
# df['Altersgruppe'] = pd.cut(...)
# Schritt 2: Daten gruppieren
# Gruppieren Sie die Daten nach der neuen Spalte 'Altersgruppe' und berechnen Sie die Durchschnittswerte
# gruppen_statistik = df.groupby(...)[...].mean()
# Schritt 3: Ergebnisse visualisieren
# gruppen_statistik.plot(...)
# plt.title(...)
# plt.show()
-
Opened: Monday, 9 December 2024, 12:00 AMDue: Monday, 16 December 2024, 12:00 AM
Aufgabe: Untersuchen Sie, ob Nutzer mit höherem Aktivitätslevel eine bessere Schlafqualität haben. Gruppieren Sie die Daten nach
Aktivitätslevelund berechnen Sie den Durchschnitt der SpalteSchlafqualität_Score. Stellen Sie die Ergebnisse in einem Diagramm dar.Vorgehen:
- Gruppieren Sie die Daten nach
Aktivitätslevel. - Berechnen Sie den durchschnittlichen Schlafqualitäts-Score für jedes Aktivitätslevel.
- Stellen Sie die Ergebnisse in einem Balkendiagramm dar.
# Schritt 1: Daten gruppieren
# Gruppieren Sie die Daten nach 'Aktivitätslevel' und berechnen Sie den Mittelwert der Spalte 'Schlafqualität_Score'
# schlaf_aktivitätslevel = df.groupby(...)[...].mean()# Schritt 2: Ergebnisse visualisieren
# schlaf_aktivitätslevel.plot(kind='bar', ...)
# plt.title(...)
# plt.show() - Gruppieren Sie die Daten nach
-
Opened: Monday, 9 December 2024, 12:00 AMDue: Monday, 16 December 2024, 12:00 AM
Aufgabe: Vergleichen Sie die Nutzungsmuster (z. B. Nutzungsdauer, Bildschirmzeit, Schritte) der verschiedenen Smartwatch-Modelle. Berechnen Sie Durchschnittswerte für jede dieser Spalten und visualisieren Sie die Ergebnisse.
Vorgehen:
- Gruppieren Sie die Daten nach
Smartwatch. - Berechnen Sie die Durchschnittswerte für die Spalten
Nutzungsdauer_Monate,Bildschirmzeit_StundenundSchritte_pro_Woche. - Stellen Sie die Ergebnisse in einem Balkendiagramm dar.
# Schritt 1: Daten gruppieren
# Gruppieren Sie die Daten nach 'Smartwatch' und berechnen Sie die Mittelwerte der gewünschten Spalten
# nutzung_smartwatch = df.groupby(...)[[...]].mean()# Schritt 2: Ergebnisse visualisieren
# nutzung_smartwatch.plot(kind='bar', ...)
# plt.title(...)
# plt.show() - Gruppieren Sie die Daten nach