Skip to main content

Datengetriebene Methoden

Completion requirements

In der heutigen Geschäftswelt haben datengetriebene Entscheidungen einen immer höheren Stellenwert eingenommen. Unternehmen stehen vor der Herausforderung, riesige Mengen an Daten zu sammeln, zu verarbeiten und zu analysieren, um daraus wertvolle Einsichten zu gewinnen. In diesem Kontext spielen verschiedene datengetriebene Methoden eine zentrale Rolle. Von den frühen Anfängen der Datenanalyse bis hin zu modernsten Ansätzen wie KDD, CRISP-DM und der Wagenmann-Methode haben sich bewährte Vorgehensweisen entwickelt, die den Prozess der Datennutzung systematisieren und optimieren.

CRISP-DM – Cross Industry Standard Process for Data Mining

Das CRISP-DM-Modell hat sich seit seiner Einführung als der am weitesten verbreitete Standard für datengetriebene Projekte etabliert. Es handelt sich um ein sehr flexibles und anpassbares Modell, das ursprünglich für das Data Mining entwickelt wurde, aber mittlerweile in vielen verschiedenen Bereichen der Datenanalyse und -wissenschaft Anwendung findet. Unternehmen unterschiedlicher Branchen nutzen CRISP-DM, weil es unabhängig von der spezifischen Technologie oder der Art der Daten ist und einen klaren, nachvollziehbaren Workflow bietet.

Der CRISP-DM-Prozess beginnt mit der Phase des Geschäftsverständnisses. Bevor überhaupt Daten betrachtet werden, ist es entscheidend, das geschäftliche Problem, das gelöst werden soll, genau zu definieren. Diese Phase ist besonders wichtig, da die eigentliche Datenanalyse nur dann erfolgreich sein kann, wenn sie klare Geschäftsziele verfolgt. In Zusammenarbeit mit den Stakeholdern werden in dieser Phase die Anforderungen festgelegt und der Erfolg der Datenanalyse wird durch messbare Kriterien definiert.

Nach dem Geschäftsverständnis erfolgt die Datenverständnis-Phase. Hierbei geht es darum, die verfügbaren Datenquellen zu analysieren, ihre Struktur zu verstehen und erste explorative Analysen durchzuführen. Diese Phase gibt den Datenwissenschaftlern eine Vorstellung davon, welche Daten für das Problem relevant sind und welche Vorverarbeitungen notwendig sein könnten.

Die dritte Phase ist die Datenvorbereitung, die oft die meiste Zeit in Anspruch nimmt. In dieser Phase werden die Daten bereinigt, transformiert und in eine Form gebracht, die für die Modellierung geeignet ist. Dies kann das Entfernen von Ausreißern, das Imputieren fehlender Werte oder das Normalisieren von Variablen umfassen. Je nach Komplexität der Daten und dem Problem kann dies ein sehr technischer und iterativer Prozess sein.

Nach der Datenvorbereitung kommt die Modellierungsphase. Hier werden verschiedene Modelle angewendet, um die Daten zu analysieren und Muster zu finden. Häufig werden in dieser Phase Algorithmen des maschinellen Lernens verwendet, um Klassifikationen, Vorhersagen oder Clustering durchzuführen. Wichtig ist, dass in dieser Phase mehrere Modelle getestet und verglichen werden, um das Modell zu finden, das die besten Ergebnisse liefert.

Nach der Modellierung erfolgt die Evaluierung der Modelle. In dieser Phase wird geprüft, ob die erstellten Modelle die gestellten Geschäftsziele erreichen und ob die Ergebnisse auch außerhalb des Testdatensatzes verallgemeinerbar sind. Dies ist ein entscheidender Schritt, um sicherzustellen, dass das Modell nicht nur gut trainiert, sondern auch praxistauglich ist.

Die letzte Phase ist das Deployment. Hier wird das Modell in das operative Geschäft integriert. Je nach Art des Projekts kann dies bedeuten, dass ein Vorhersagemodell in die IT-Systeme eines Unternehmens eingebaut wird oder dass die Ergebnisse der Datenanalyse in Berichten und Dashboards visualisiert werden. In dieser Phase wird das Modell kontinuierlich überwacht und, falls nötig, angepasst, um eine langfristige Nutzung sicherzustellen.

Unternehmen wie Miele nutzen CRISP-DM, um datengetriebene Projekte zu strukturieren und systematisch vorzugehen. Beispielsweise könnten sie in der Fertigung Daten über Produktionsmaschinen analysieren, um frühzeitig mögliche Ausfälle zu erkennen und so die Wartung zu optimieren. Der flexible Charakter von CRISP-DM macht es für verschiedenste Anwendungen attraktiv, von der Fertigung bis hin zur Kundenanalyse in der Marktforschung. State of the Art bei CRISP-DM ist die Integration von automatisierten Datenpipelines und Cloud-Lösungen, die es ermöglichen, die Phasen schneller und effizienter zu durchlaufen, sowie die Nutzung von Künstlicher Intelligenz, um den Modellierungsprozess zu unterstützen.

You have completed 100% of the lesson
100%