fbpx
Angewandte Mathematik

Sicher ist, dass nichts sicher ist

Menschen besitzen die Fähigkeit, aus Erfahrungen zu lernen. Dabei können sie ebenfalls einschätzen, wie gut sie etwas gelernt haben. Mithilfe mathematischer Modelle und Algorithmen können das allerdings auch Programme und Maschinen.

Angenommen, wir haben einen Datensatz, bei dem sogenannte Merkmale (x) einem Zielwert (y) zugeordnet werden. Beispielsweise könnte x die Höhe der Rechnung und y die Höhe des Trinkgeldes sein, welches die Gäste in den letzten Wochen in einem Restaurant zahlten. Es könnte versucht werden, einen Zusammenhang zwischen x und y herzustellen. Im einfachsten Fall wäre anzunehmen, dass y linear von x abhängt. Das Trinkgeld steigt somit proportional zum Rechnungsbetrag. Trägt man alle Punkte x und y in ein gemeinsames Koordinatensystem ein, kann versucht werden, einen adäquaten und linearen Zusammenhang zu finden, indem man eine Gerade so durch die Datenpunkte legt, dass sie zu allen Punkten einen möglichst kleinen Abstand hat. Eine solche Gerade nennt man auch Ausgleichsgerade.
Indem der entsprechende y-Wert der Gerade ablesen wird, können Vorhersagen zu einem gegebenen x-Wert getätigt werden.
Es ist also möglich, bei Kenntnis des Rechnungsbetrages eine Vorhersage über das Trinkgeld zu entwickeln. Diese Vorhersage ist jedoch sicherlich fehlerbehaftet, da beispielsweise auch die Persönlichkeit des Gastes eine Rolle spielt. Dennoch verläuft die Gerade relativ sicher durch die gesammelten Datenpunkte und wirkt somit recht plausibel. Wie gut die Vorhersage jedoch bei neuen Gästen wirklich ist, kann erst bewertet werden, wenn sie mit den tatsächlichen Trinkgeldern der zukünftigen Gäste verglichen wird.

Vorhersage des Trinkgeldes anhand des Rechnungspreises. Quelle: https://seaborn.pydata.org/

Dieses Modell beschreibt jedoch noch nicht, wie unsicher die Vorhersage ist. Hierfür kann die Gerade durch eine sogenannte Wahrscheinlichkeitsverteilung ersetzt und diese dann möglichst gut an die Datenpunkte angepasst werden. Bei einer großen Streuung der Datenpunkte um einen bestimmten Rechnungsbetrag besitzt die Verteilung eine hohe Varianz und damit eine ebenfalls hohe Unsicherheit. Zur Vorhersage eines Trinkgeldes zu dem gegebenen Rechnungsbetrag werden alle Trinkgelder um diesen Betrag herum ermittelt.

Vorhersage mit Unsicherheiten. Die Gerade beschreibt den Erwartungswert und damit die Vorhersage. Die Breite des schattierten Bereiches um die Gerade beschreibt die Streueng der Trinkgelder und damit die Unsicherheit der Vorhersage. Je breiter, desto unsicherer. Quelle: https://seaborn.pydata.org/.

Im Allgemeinen wird kein linearer Zusammenhang innerhalb der gegebenen Daten vorhanden sein. Durch das Abbilden der Daten in einen komplizierteren Raum kann jedoch häufig ein solcher hergestellt werden. Komplizierte Probleme können damit auf die Ausgleichsgerade zurückgeführt werden.

Durch Abbilden der Daten in einen komplizierteren Raum können lineare Zusammenhänge auftreten. Quelle: https://math.stackexchange.com.

Werden die Daten in unendlich dimensionale Räume abgebildet, gelangt man zu dem Konzept der sogenannten stochastischen Prozesse. Ein prominentes Beispiel ist der Gaußprozess, der einer Art kontinuierliche Verallgemeinerung der Gaußschen Glockenkurve ist.