Explorative Datenanalyse
Abschlussbedingungen
5. Einblicke und Auffälligkeiten notieren
6. Daten für weitere Analysen vorbereiten
Nächste Schritte
Die explorative Datenanalyse (Exploratory Data Analysis, EDA) ist ein wesentlicher Schritt, um die Struktur, die Muster und mögliche Zusammenhänge in einem Datensatz zu verstehen.
1. Überblick über den Datensatz verschaffen
Datensatz laden:
-
- Importieren Sie den Datensatz in Python, z. B. mit Pandas:
-
import pandas as pd
df = pd.read_csv("daten.csv")
Erste Zeilen anzeigen:
- Nutzen Sie
df.head()
, um sich die ersten Zeilen des Datensatzes anzusehen und ein Gefühl für die Struktur und den Inhalt zu bekommen. - Verwenden Sie
df.info()
, um Informationen über die Anzahl der Zeilen, Spalten und die Datentypen zu erhalten - Verwenden Sie
df.shape
um die Anzahl der Zeilen und Spalten zu sehen
2. Statistische Zusammenfassung erstellen
Daten analysieren:
- Nutzen Sie df.describe(), um zentrale statistische Maße wie Mittelwert, Median, Minimum und Maximum für numerische Spalten zu berechnen
- Kategorische Daten untersuchen: Nutzen Sie
df['Spaltenname'].value_counts()
, um die Häufigkeit der Werte in einer Spalte zu analysieren
3. Fehlende Werte identifizieren
- Nutzen Sie
df.isnull().sum()
, um zu sehen, wie viele fehlende Werte in jeder Spalte vorhanden sind
4. Datenverteilung visualisieren
Histogramme erstellen:
- Nutzen Sie
df['Spaltenname'].hist()
, um die Verteilung einer numerischen Spalte zu visualisieren - Nutzen Sie Boxplots, um Ausreißer und die Verteilung zu untersuchen
import matplotlib.pyplot as plt
df.boxplot(column='Spaltenname')
plt.show()
- Prüfen Sie Korrelationen zwischen numerischen Spalten mit
df.corr()
5. Einblicke und Auffälligkeiten notieren
Stellen Sie sich folgende Fragen:
- Gibt es unerwartete oder ungewöhnliche Werte?
- Gibt es Ausreißer, die möglicherweise korrigiert oder ignoriert werden sollten?
- Welche Muster und Trends erkennen Sie in den Daten?
- Dokumentieren Sie Ihre Beobachtungen in einem Notizbuch oder einer Datei, um später darauf zurückgreifen zu können
6. Daten für weitere Analysen vorbereiten
Daten bereinigen:
- Entfernen oder füllen Sie fehlende Werte, wenn notwendig mit
df['Spaltenname'].fillna(df['Spaltenname'].mean(), inplace=True)
Nächste Schritte
Nachdem Sie die Daten durch die explorative Analyse besser verstanden haben, können Sie spezifische Fragestellungen oder Hypothesen testen und Ihre Erkenntnisse visualisieren. Denken Sie daran: Eine gute EDA ist die Basis für jede erfolgreiche Datenanalyse!
- 9. Dezember 2024, 16:15
- 9. Dezember 2024, 16:15