Allgemein

Sicher ist, dass nichts sicher ist

Menschen besitzen die Fähigkeit, aus Erfahrungen zu lernen. Oft können sie auch einschätzen, wie gut sie etwas gelernt haben. Mit Hilfe mathematischer Modelle und Algorithmen können das auch Programme und Maschinen.

Angenommen, wir haben einen Datensatz, bei dem sogenannte Merkmale x einem Zielwert y zugeordnet werden. Zum Beispiel könnte x die Höhe der Rechnung und y die Höhe des Trinkgeldes sein, welches Gäste in den letzten Wochen in einem Restaurant zahlten. Man könnte versuchen, einen Zusammenhang zwischen x und y herzustellen. Im einfachsten Fall könnte man annehmen, dass y linear von x abhängt. Das Trinkgeld steigt somit proportional zum Rechnungsbetrag. Trägt man alle Punkte x und y in ein gemeinsames Koordinatensystem ein, kann man versuchen einen adequaten linearen Zusammenhang zu finden, indem man eine Gerade so durch die Datenpunkte legt, dass sie zu allen Punkten möglichst kleinen Abstand hat. Eine solche Gerade nennt man auch Ausgleichsgerade. Indem man den entprechenden y-Wert der Gerade abliest, kann man somit Vorhersagen zu einen gegebenen x-Wert machen. Man kann also bei Kenntniss des Rechnungsbetrages eine Vorhersage über das Trinkgeld machen. Diese Vorhersage ist sicherlich Fehlerbehaftet, da zum Beispiel sicherlich auch die Persönlichkeit des Gastes eine Rolle spielt. Dennoch verläuft die Gerade realitiv gut durch die gesammelten Datenpunkte und scheint somit recht plausibel zu sein. Wie gut die Vorhersage bei neuen Gästen wirklich ist, kann man erst bewerten, wenn man die Vorhersage mit dem tatsächlichen Trinkgeldern der zukünftigen Gäste vergleicht.

Vorhersage des Trinkgeldes anhand des Rechnungspreises. Quelle: https://seaborn.pydata.org/

Dieses Modell beschreibt noch nicht, wie unsicher die Vorhersage ist. Hierfür können wir die Gerade durch eine sogenannte Wahrscheinlichkeitsverteilung ersetzen und diese dann möglichst gut an die Datenpunkte anpassen. Bei großer Streueng der Datenpunkte um einen bestimmten Rechnungsbetrag besitzt die Verteilung eine hohe Varianz und damit eine hohe Unsicherheit. Zur Vorhersage eines Trinkgeldes zu gegebenen Rechnungsbetrag werden alle Trinkgelder um diesen Betrag herum gemittelt.

Vorhersage mit Unsicherheiten. Die Gerade beschreibt den Erwartungswert und damit die Vorhersage. Die Breite des schattierten Bereiches um die Gerade beschreibt die Streueng der Trinkgelder und damit die Unsicherheit der Vorhersage. Je breiter, desto unsicherer. Quelle: https://seaborn.pydata.org/.

Im allgemeinen wir kein linearer Zusammenhang innerhalb der gegebenen Daten vorhanden sein. Indem man die Daten in einen komplizierteren Raum abbildet, kann man jedoch häufig einen solchen herstellen und damit komplizierte Probleme auf die Ausgleichsgerade zurückführen.

Durch Abbilden der Daten in einen komplizierteren Raum können lineare Zusammenhänge auftreten. Quelle: https://math.stackexchange.com.

Bildet man die Daten sogar in unendlich dimensionale Räume ab, so gelangt man zu dem Konzept der sogenannten stochastischen Prozesse. Ein promimentes Beispiel ist der Gaußprozess, der einer Art kontinuierliche Verallgemeinerung der Gaußschen Glockenkurve ist.