Crashkurs Data Analytics – Teil 4

Nachdem Teil 3 sich mehr auf grafische Darstellungen konzentriert hat und überschaubar viel Text beinhaltet hat, wird in Teil 4 wieder mehr erzählt und erklärt. Dabei gehe ich wie angekündigt auf die Themen Erwartungswert, Wahrscheinlichkeit und Korrelation ein. Jeder Begriff wird erklärt sowie auch die Berechnung des dahinterstehenden Wertes. Wir befinden uns weiterhin im Bereich der Grundlagen und der Auswertung von numerischen Daten.

Kategorische Daten können auch gezählt werden und eine Häufigkeit zugeordnet bekommen. Mit diesen Informationen kann der Erwartungswert berechnet werden, indem man den Wert (bspw. ein Play für 3 yards) mit der relativen Häufigkeit multipliziert und anschließend die Summe über alle Werte-Häufigkeits-Kombinationen bildet. Damit kann mit einer größeren Sammlung an Daten ein Wert angegeben werden, an dem man sich orientieren kann. Die generierte Information kann für die zukünftige Strategie und eigene Erwartungshaltung verwendet werden. So könnten man beispielsweise erfahren, welcher Spielzug welchen Erwartungswert hat und ob es sinnvoll ist ihn in der jeweiligen Spielsituation zu nutzen.

Die Wahrscheinlichkeit sollte den meisten noch aus der Schule bekannt sein. Darüber hinaus findet er sich im Wetterbericht (Regenwahrscheinlichkeit) oder auch im Bereich Sport Analytics bei der Siegwahrscheinlichkeit oder was seit neuestem öfter im Fernseh bei Fußballspielen zu sehen ist die Torwahrscheinlichkeit. Dabei gibt er Wert an in wieviel Prozent der Fälle in denen das Gleiche passiert ein gewisses Ergebnis dabei herauskommt. Hieraus ergibt sich je nach Themenfeld auch die Einschränkung, dass der Wert eher ein Gedankenspiel ist, heutige technologische Möglichkeiten erlauben jedoch Simulationen, um einen sinnvollen Wahrscheinlichkeitswert zu erhalten.

Allgemein beschreibt die Korrelation eine Beziehung zwischen zwei Dingen, in unserem Fall Daten. Eine positive Korrelation besteht, wenn hohen Werten einer Variablen auch die hohen Werte der anderen Variable zugeordnet werden, beziehungsweise niedrige Werte zu niedrigen Werten zugeordnet werden. Eine negative Korrelation bedeutet das hohen Werten der einen Variablen, niedrige Werte der anderen Variable zugeordnet werden und umgekehrt. In einfachen Fällen kann schnell bestimmt werden ob eine Korrelation vorliegt, in komplexeren Fällen hilft der Korrelationskoeffizient. Dabei werden der Mittelwert sowie die Standardabweichung verwendet. Man berechnet für jede Variable die Differenz aus Wert und Mittelwert und multipliziert es mit der Differenz von Wert und Mittelwert der zweiten zugehörigen Variable. Diese Multiplikation führt man für alle Wertepaare durch und bildet die Summe über alle errechneten Werte. Das Ergebnis wird anschließend durch das Produkt der jeweiligen Standardabweichung der Variablen, welche nochmals mit (n-1) (n ist die Anzahl der Wertepaare) multipliziert werden, geteilt. Der Koeffizient kann so Werte zwischen -1 und +1 annehmen. Liegt der Wert bei -1 liegt eine perfekte negative Korrelation vor und bei +1 eine perfekte positive Korrelation vor. Liegt der Wert bei 0 liegt keine Korrelation vor. Wichtig für den Umgang mit dieser Information ist, dass die Korrelation zwar einen Zusammenhang anzeigt aber keine Erklärung dafür bietet. Daher gilt es sich zu merken: Korrelation impliziert keine Kausalität.

Old School Footballexperten weisen gerne darauf hin, dass die Teams mit vielen Wins viele Laufspielzüge ansagen. Hier liegt eine Korrelation vor, aber keine Kausalität. Teams die in Führung liegen lassen viel mehr Laufspielzüge spielen, um Zeit von der Uhr zu nehmen und dem Gegner möglichst wenig Spielzüge zu erlauben, damit der Vorsprung erhalten bleibt. Die höhere Nutzungsrate von Laufspielzügen gegenüber Teams mit weniger Siegen ist nicht der Grund für den Erfolg, sondern eine Begleiterscheinung des Erfolges.

Zum Thema Korrelation gibt es auch noch Grafiken die man zeigen könnte, darauf möchte ich an dieser Stelle jedoch verzichten, da diese sich denen aus Teil 3 des Crashkurses ähneln und keine neue Erkenntnis mit sich bringen für den Blog. In Teil 5 tauchen wir dann in die Welt des Signifikanztests ein. Mit Hilfe von Signifikanztests können mögliche Ungereimtheiten und Zufälle in den Daten oder der Auswertungsmethode aufgedeckt werden und so die eigenen Erhebungs- und Auswertungsprozesse überprüft und überdacht werden.

Schreibe einen Kommentar Antworten abbrechen