Kategorien
Allgemein Crashkurs Data Analytics

Crashkurs: Data Analytics – Teil 3

Nachdem wir uns im letzten Tagebucheintrag mit den gängigen Maßeinheiten in der Statistik beziehungsweise Datenanalyse beschäftigt haben, wollen wir uns in diesem Eintrag mit ein paar Arten der grafischen Darstellung von Daten beschäftigen. Diese sind zunächst einmal auch grundlegend und werden später durch weitere ergänzt, wenn wir uns auch mit mehr Maßeinheiten beschäftigen und derer Bedeutung.

Ein Boxplot dient vor allem dazu einen Überblick zu verschaffen. Wie in der Grafik unten zu sehen ist finden sich in einem Boxplot alle wichtigen Lagemaße wieder sowie die Position beziehungsweise Entfernung von Ausreißern. Zusätzlich wird durch die “Box”, in der Regel, die 25- sowie 75 Percentile angezeigt. Die Percentile kann man entsprechend anpassen. Werte außerhalb der 1,5-fachen Interpercentile Range (Hier 25 und 75 entsprechend dann die Interquartile Range) liegen sind Ausreißer. Eine Range ist dementsprechend der Abstand zwischen “linkem und rechtem” Percentile. 

https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51

Die Häufigkeitstabelle und ein Histogramm sind eng miteinander verbunden. In einer Häufigkeitstabelle wird zunächst einmal notiert wie oft ein gewisses Ergebnis beziehungsweise wie oft ein gesuchter Untersuchungswert aufkommt. Dies kann zunächst einmal als Strichliste passieren, die dann in eine arabische Zahl umgewandelt wird zur besseren Lesbarkeit. Die grafische Version einer Häufigkeitstabelle ist das Histogramm. Im Normalfall wird ein Säulendiagramm wie es in der Grafik zu sehen ist verwendet. In manchen Fällen kann aber auch ein Balkendiagramm besser sein. Hängt natürlich immer davon ab was gezeigt werden soll und welche Daten erhoben wurden.

https://en.wikipedia.org/wiki/Histogram#/media/File:Example_histogram.png

Eine weitere Darstellungsform sind Kuchendiagramme. Die sind zwar im Zusammenhang mit Sport Data Analytics eher seltener anzutreffen, wollen sie der Vollständigkeit wegen jedoch nicht unter den Tisch fallen lassen. Zumal die Bundestagswahlen anstehen und wir sie zumindest in Deutschland in den nächsten Wochen und Monaten wieder häufiger zu sehen bekommen. Der Vorteil dieser Darstellungsweise von Informationen ist, dass die Daten (häufig) so besser in Relation zueinander gesehen werden können.

https://www.reddit.com/r/dataisbeautiful/comments/1v3xba/a_vizualization_of_the_average_nfl_game_broadcast/

Der Eintrag ist heute etwas kürzer, da die Darstellungsarten nicht ganz so viel an Text hergeben und ich mich heute vor allem auf das Visuelle konzentriert habe. Im nächsten Lerntagebucheintrag werden wir wieder mehr mit Maßen arbeiten. Das Thema sind dann Erwartungswert, Wahrscheinlichkeit sowie Korrelation.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert