Crashkurs: Data Analytics – Teil 2

Willkommen zu Teil II meines Lerntagebuchs. Nachdem wir in Teil 1 gelernt, beziehungsweise aufgefrischt, haben was Daten sind und welche Arten es gibt (numerische und kategorische Daten) und erfreulicher Weise festgestellt haben, dass doch etwas von meinem Studium hängen geblieben ist, wollen wir im zweiten Teil des Lerntagebuchs uns mit Datensätzen beschäftigen.

Zunächst einmal startet man häufig mit ungeordneten Daten die erst einmal in die richtige Struktur gebracht werden müssen, um damit etwas anfangen zu können. In der Regel bedeutet dies die Daten in ein Spreadsheet, auf deutsch Kalkulationstabelle, zu übertragen. Daher auch oft “rectangular data” genannt. In der Kopfzeile stehen dann die Attribute oder Variablen die erfasst wurden. In den Zeilen stehen die entsprechenden erfassten Zahlen, Werte oder Begriffe deren Zusammenhänge es zu interpretieren gilt. Oft können die Werte für sich oft schon Indikatoren für die spätere Auswertung sein. Für eine bessere Verarbeitung in Auswertungsprogrammen ist es sinnvoll die erste Spalte als Indexspalte zu nutzen und so die Datensätze durchzunummerieren.

Es gibt aber auch “nonrectangular data structures”. Häufig handelt es sich dabei um Daten die wiederholt erfasst und gemessen werden, um darauf basierenden statistische Vorhersagen treffen zu können, auch bekannt unter der Bezeichnung Zeitreihen. Es gibt noch weitere Typen von Datenstrukturen, eine Struktur wird für Mapping und location analytics benutzt, hierbei geht es vor allem und die Auswertung von Koordinaten. Zu guter Letzt gibt es auch “network data structures” die Verbindungen darstellen und mit Hilfe derer Informationen man Optimierungen vornehmen kann.

Gehen wir über zu den Kennzahlen mit Hilfe derer eine stochastische Auswertung vollzogen werden kann. Die bekannteste Kennzahl dürfte der Durchschnitt sein (im englischen mean oder average). Wir summieren alle Werte auf Teilen die Summe durch Anzahl der Werte. Der Median (50th percentile) ist der Wert bei dem 50% der Daten unterhalb und oberhalb davon liegen. Ist die Anzahl der Werte gerade gibt es den Median “quasi” nicht sondern er liegt zwischen den zwei mittleren Werten der Tabelle, während bei einer ungeraden Anzahl es eine Mitte gibt. Der Median wird oft genutzt, um besser zwischen zwei Sätzen vergleichen zu können. Da hier der mittlere Wert aus allen Daten gefunden wird gilt der Median als robust, da das Ergebnis nicht von sogenannten Outlier beeinflusst wird, während dies beim Durchschnitt der Fall ist. Ein Outlier ist ein statistischer Ausreißer, also ein Wert der nicht so wirklich zu den anderen erfassten Werten passen will.

Ergänzend zum Median gibt es noch weitere Perzentile. Von Perzentilen liest man öfter im Football. Mit Hilfe der Perzentile kann eben wie beim Median der Datensatz aufgeteilt werden. Hierzu nimmt man in der Regel ¼ Schritte, also 25, 50 und 75 oder aber auch 10 Schritte. Um herausragende Werte zu zeigen nimmt man oft 95 oder 99 Perzentile. Ein Wert der im 95-Perzentil liegt, gehört somit zu den “5%” besten Werten im Football, die in einem bestimmten Zusammenhang gemessen wurden.

Zum Abschluss des heutigen Blogeintrags kommen wir noch zu den Streumaßen. Mit Hilfe von Streumaßen kann bestimmt werden, ob die Werte dicht beieinander liegen oder sie auf der Skala weit verteilt sind. Der Kern der statistischen Auswertung ist es herauszufinden weshalb es diese Streuungen gibt und diese zu minimieren oder im Rahmen der Streuungen Entscheidungen zu treffen oder Prognosen herauslesen zu können. Die grundlegendsten Streumaße sind die Abweichung, die Varianz und die aus der Varianz abgeleiteten Standardabweichung. Alle drei nutzen den Durchschnitt. Dabei werden die Werte bestimmt, um die vom Durchschnitt abgewichen wird. Je größer Varianz und Standardabweichung sind, desto höher ist Streuung der Werte.

Damit schließen wir den heutigen Eintrag ab. Wieder kommen mir die Begriffe und Formeln, die ich hier außen vor lasse, bekannt vor und ich erinnere mich an immer mehr Sachen aus meinem Studium. Daher sehe ich das alles aktuell als erfolgreich an. Beim nächsten Mal schaue ich mir dann die verschiedenen Möglichkeiten zur visuellen Darstellung von Daten an.

Schreibe einen Kommentar Antworten abbrechen