Lineare Regression verstehen
Damit sind wir schon sehr schnell im Bereich der Funktionen, welche Zusammenhänge zwischen unabhängigen Eingabewerten zu abhängigen Ausgabewerten aufzeigen sollen. Als Beispiel zur Veranschaulichung der möglichen realen Anwendung der Funktionsfindung nehmen wir eine geplante Veranstaltung. Je nachdem, wie viele Personen an der Veranstaltung teilnehmen, haben wir unterschiedliche Kosten für die Durchführung. Einige historische Daten von durchgeführten Veranstaltungen haben wir bereits und diese sind in der Abbildung dargestellt.
Zu erkennen ist, dass Veranstaltungen mit mehr teilnehmenden Personen anscheinend mehr Kosten. Auch ist ein linearer Zusammenhang zu erkennen. Kann man diesen Zusammenhang spezifizieren? Ja, mit einer linearen Regression! Wir wollen jetzt also eine Gerade finden (siehe nächste Abbildung), die möglichst genau in der Mitte dieser Daten liegt und das mit Hilfe des Werkszeugs der linearen Regression.
In der (einfachen) lineare Regression suchen wir nach einer Gerade, die wir durch unsere Daten legen können. Die Gerade hat dabei die Gleichung m*x+b. m ist hierbei die Steigung der Gerade, x der Wert der Eingabegröße (hier die Anzahl der teilnehmenden Personen) und b der Achsenabschnitt. Wie legen wir diese Gerade jetzt möglichst gut in die Daten und wie können wir "möglichst gut" überhaupt bewerten? Meistens wird das sogenannte kleinste Abstandsquadrat hierfür verwendet. Wir wollen also eine Gerade haben, die möglichst nah an allen Punkten dran liegt. Die notwendigen Formeln zur Bestimmung der kleinsten Abstandsquadrate sind die Folgenden.
Die Variablen mit den Querstrichen drauf, stehen hierbei für die jeweiligen Mittelwerte der Eingabe- und Ausgabewerte, also der Anzahl der teilnehmenden Personen und der Kosten. Programme wie Excel können diese lineare Gleichung standardmäßig lösen. Für die Steigung ergibt sich ein Wert von 9,1107, der Achsenabschnitt beträgt 159,83. Das bedeutet, angewandt auf unser Beispiel, dass wir grundsätzlich knapp 160 € Fixkosten für eine Veranstaltung annehmen müssen und ca. 9 € pro teilnehmende Person (entspricht dem Preis einer Pizza).
In die Geradengleichung können allerdings auch negative Eingabewerte eingesetzt werden. Minus zwanzig teilnehmende Personen ergäben dann sogar einen Gewinn von ca. 22 €. Um so etwas zu vermeiden, können wir unsere Geradengleichung mit einer Art Schrankenfunktion multiplizieren. Denken wir uns eine Schrankenfunktion aus, die positive Werte unverändert weitergibt, negative Werte allerdings auf Null setzt. Im Kontext mit künstlichen neuronalen Netzen wird hierbei nicht von einer Schranken-, sondern einer Aktivierungsfunktion gesprochen. Und die Aktivierungsfunktion, die negative Werte auf Null setzt und positive Werte unverändert weiter gibt, ist die ReLU-Funktion, für Rectifier Linear Unit-Funktion. Kombiniert man nun die Geradengleichung mit der Aktivierungsfunktion, hat man zum einen eine lineare Regression genutzt, um den Zusammenhang zwischen Eingabe- und Ausgabewerten darzustellen, zum anderen aber auch bereits das erste Neuron gebaut.