Kategorien
Allgemein Crashkurs Data Analytics

Crashkurs: Data Analytics

Durch den Blog und die ständigen Berührungspunkte zu Analytics, habe ich mich dazu entschlossen, mir in einer Art Selbststudium das Thema Data Analytics sowie im speziellen dann Sports Data Analytics näherzubringen. Dem ein oder anderen ist das Thema und die Hintergründe nicht so bekannt oder geheuer. Weshalb Ferdi und Marko mir den Vorschlag gemacht haben, das Gelernte als Themenreihe im Sturzflug-Blog zu präsentieren. Daher versuche ich nun in unregelmäßigen Abständen eine Art Lerntagebuch zu führen und euch auf meine Reise in die Welt der Data Analytics mitzunehmen.

Leider wurde mir im Studium der Spaß am Thema Statistik und Auswertung von Daten durch eine sehr trockene Vorlesung genommen, weshalb ich davon Abstand genommen habe, obwohl es mich eigentlich immer sehr interessiert hat, vor allem die Interpretation von Daten und der daraus ableitbaren Bedeutung oder Erklärung, je nach Zusammenhang. Meine Faszination für Sport sowie die Bekanntheit von Analytics in der NFL und was man mit den Informationen anfangen kann, haben mein Interesse an dem Themengebiet wieder erweckt und sogar noch größer gemacht und damit genug der Vorworte zu meinem Lerntagebuch! Zeit einzusteigen!

Für den klassischen seichten Einstieg gibt es erstmal eine kleine Information zu meinem Vorgehen. Ich habe mir von Freunden und Bekannten die mit Data Analytics oder Data Science zu tun haben Literatur zum Selbstlernen empfehlen lassen. Den Start mache ich mit “Practical Statistics for Data Scientists” von Peter Bruce, Andrew Bruce und Peter Gedeck. Anschließend entscheide ich, ob ich weitere Informationen zu den allgemeinen mathematischen Konzepten benötige, mehr über R und Python erfahren möchte und der Programmierung von Berechnungen in beiden oder ob ich direkt weitergehe und mich dann dem Fachgebiet Sports Data Analytics widmen möchte.

Nun zum Eingemachten und auch hier gibt es den lockeren Start und wir lernen erst einmal, seit wann es Data Analytics gibt und was die Idee dahinter ist. Bereits 1962 hat John W. Tukey dafür plädiert aus der Statistik das Thema Data Analytics zu machen in dem die klassische statistische Auswertung ein Komponent des gesamten Konstrukts ist. Dabei geht es vor allem um die Verbindung von statistischen Konzepten und Auswertungen mit Computer Sciences. Es werden sogenannte Plots mit deskriptiver Statistik verknüpft, um ein klareres Bild der Daten abzubilden. Durch die schnelle Weiterentwicklung von Computern war es in den letzten Jahren möglich deutlich komplexere Daten anzugehen und berechnen zu können.

Bevor man jedoch etwas aus den Daten herauslesen kann die einem zur Verfügung stehen gilt es diese zu Strukturieren. Denn gerade in der heutigen Zeit werden so viele Daten erzeugt und erfasst, dass die wichtigste Aufgabe ist unbrauchbare Informationen herauszufiltern. Der erste Schritt dahin ist es Daten zu Kategorisieren. Dafür gibt es zunächst zwei Basistypen, nämlich numerische Daten sowie kategorische Daten. Letzteres sind einfache Bezeichnungen oder Reihenfolgen, wie beispielsweise Bewertungen oder Altersangaben. Numerische Daten sind Werte wie Geschwindigkeiten oder auch sogenannte diskrete Daten wie Häufigkeiten. Die Unterscheidungen zwischen den Datentypen ist dabei von zentraler Bedeutung für die Analyse. Durch diese wird die Methode sowie die Darstellungsweise größtenteils vorherbestimmt.

Dabei will ich es auch erstmal belassen, als Einstieg. Bin zuallererst einmal froh, dass die Begrifflichkeiten mir noch was sagen und die Statistik I und II Vorlesungen nicht unnötig waren, auch wenn sie mir den Spaß an diesem Thema genommen haben. Weiter geht es dann im nächsten Teil mit komplexeren Datensätzen die häufig als Tabelle dargestellt werden und mehr Informationen parat halten.

Eine Antwort auf „Crashkurs: Data Analytics“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.