Zum Hauptinhalt

Explorative Datenanalyse

Abschlussbedingungen

Die explorative Datenanalyse (Exploratory Data Analysis, EDA) ist ein wesentlicher Schritt, um die Struktur, die Muster und mögliche Zusammenhänge in einem Datensatz zu verstehen. 

1. Überblick über den Datensatz verschaffen

Datensatz laden:

    • Importieren Sie den Datensatz in Python, z. B. mit Pandas:
    • import pandas as pd
      df = pd.read_csv("daten.csv")

Erste Zeilen anzeigen:

  • Nutzen Sie df.head(), um sich die ersten Zeilen des Datensatzes anzusehen und ein Gefühl für die Struktur und den Inhalt zu bekommen.
  • Verwenden Sie df.info(), um Informationen über die Anzahl der Zeilen, Spalten und die Datentypen zu erhalten
  • Verwenden Sie df.shape um die Anzahl der Zeilen und Spalten zu sehen

 

2. Statistische Zusammenfassung erstellen

Daten analysieren:

  • Nutzen Sie df.describe(), um zentrale statistische Maße wie Mittelwert, Median, Minimum und Maximum für numerische Spalten zu berechnen
  • Kategorische Daten untersuchen: Nutzen Sie df['Spaltenname'].value_counts(), um die Häufigkeit der Werte in einer Spalte zu analysieren

 

3. Fehlende Werte identifizieren

  • Nutzen Sie df.isnull().sum(), um zu sehen, wie viele fehlende Werte in jeder Spalte vorhanden sind

 

4. Datenverteilung visualisieren

Histogramme erstellen:

  • Nutzen Sie df['Spaltenname'].hist(), um die Verteilung einer numerischen Spalte zu visualisieren
  • Nutzen Sie Boxplots, um Ausreißer und die Verteilung zu untersuchen

import matplotlib.pyplot as plt 

df.boxplot(column='Spaltenname')

plt.show()

  • Prüfen Sie Korrelationen zwischen numerischen Spalten mit df.corr()

 

5. Einblicke und Auffälligkeiten notieren
Stellen Sie sich folgende Fragen:

  • Gibt es unerwartete oder ungewöhnliche Werte?
  • Gibt es Ausreißer, die möglicherweise korrigiert oder ignoriert werden sollten?
  • Welche Muster und Trends erkennen Sie in den Daten?
  • Dokumentieren Sie Ihre Beobachtungen in einem Notizbuch oder einer Datei, um später darauf zurückgreifen zu können

 

6. Daten für weitere Analysen vorbereiten
Daten bereinigen:

  • Entfernen oder füllen Sie fehlende Werte, wenn notwendig mit df['Spaltenname'].fillna(df['Spaltenname'].mean(), inplace=True)

Nächste Schritte
Nachdem Sie die Daten durch die explorative Analyse besser verstanden haben, können Sie spezifische Fragestellungen oder Hypothesen testen und Ihre Erkenntnisse visualisieren. Denken Sie daran: Eine gute EDA ist die Basis für jede erfolgreiche Datenanalyse!