Was ist Datasaurus Dozen und seine Relevanz in der Datenwissenschaft?

Home » Was ist Datasaurus Dozen und seine Relevanz in der Datenwissenschaft?

Zusammenfassende Statistiken sind nützlich, da sie eine große Anzahl von Beobachtungen zu einer einzigen Zahl zusammenfassen, die leicht zu verstehen und zu teilen ist. Diese Eigenschaft erklärt, warum Mittelwerte und Korrelationen so weit verbreitet sind, von einführenden Statistikkursen über Zeitschriftenartikel bis hin zu wissenschaftlichen Arbeiten. Der Vorbehalt ist, dass sie oft nicht ausreichen, um das Gesamtbild zu beschreiben, wie das „Dutzend Datasaurus“, eine Sammlung von Datensätzen, belegt.

Es gibt einen Grund, warum Data Scientists so viel Zeit mit Visualisierungen verbringen, um Daten zu untersuchen. Es ist riskant, sich ausschließlich auf Zusammenfassungen von Daten wie Mittelwerten, Varianzen und Korrelationen zu verlassen, da sehr unterschiedliche Datensätze zu identischen Schlussfolgerungen führen können. Das ist ein Konzept, das sich seit Jahrzehnten in Statistikkursen bewährt hat Anscombe-Quartett: vier Streudiagramme mit demselben Mittelwert und derselben Varianz und derselben Korrelation zwischen ihnen, obwohl sie qualitativ unterschiedlich sind. (Sie können dies in R validieren, indem Sie data (Anscombe) verwenden, um die Daten zu laden.) Was Sie vielleicht nicht erkennen, ist, dass bivariate Daten mit gegebenem Mittelwert, Median und Korrelation in jeder Form generiert werden können, sogar als Dinosaurier.

Was ist Datasaurus Dozen?

Alberto Cairo schuf den ursprünglichen Datasaurus als Beispielspielzeug, um die Notwendigkeit der Datenkartierung hervorzuheben. Es gibt nur zwei Variablen im Datensatz (x und y), und die zusammenfassenden Statistiken sind nicht besonders bemerkenswert.

Justin Matejka und George Fitzmaurice, in ihrem Forschungsbericht „Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing“ analysiert 13 Datensätze (der Datasaurus und 12 andere), die alle die gleichen zusammenfassenden Statistiken enthalten (Mittelwert x/y, Standardabweichung x/y und Pearson Korrelation) auf zwei Dezimalstellen, aber ihr Aussehen ist sehr unterschiedlich. Der Artikel ist wichtig, weil er die Methode erklärt, die von Datenwissenschaftlern verwendet wird, um einen bestimmten Datensatz zu erstellen, sowie andere ähnliche.

Lesen Sie auch: Ein tiefer Einblick in PyeCharts, ein Python-Tool zur Datenvisualisierung

Methodik

Die wichtige Idee hinter der Methode der Autoren ist, dass es, obwohl es schwierig ist, von Anfang an einen Datensatz mit spezifischen statistischen Eigenschaften zu erstellen, extrem einfach ist, einen vorhandenen Datensatz zu nehmen, ihn ein wenig zu optimieren und diese statistischen Eigenschaften beizubehalten. Dazu wählen Forscher zufällig einen Punkt aus, verschieben ihn ein wenig und bestätigen dann, dass die statistischen Attribute des Satzes akzeptable Grenzen nicht überschritten haben (in diesem speziellen Fall stellen wir sicher, dass die Mittelwerte, Abweichungstypen und Korrelationen unverändert bleiben auf zwei Dezimalstellen gleich.)

Wenn dieser winzige Prozess des „Störens“ oft genug wiederholt wird, entsteht ein völlig separater Datensatz. Wie bereits erwähnt, müssen diese Datensätze jedoch visuell einzigartig und sichtbar anders sein, um nützliche Werkzeuge zu sein, um die Notwendigkeit der Anzeige Ihrer Daten zu betonen. Dies wird erreicht, indem zufällige Punktbewegungen in eine bestimmte Form gebracht werden.

Quelle: https://www.autodesk.com/research/publications/same-stats-different-graphs

Wie wurde der Datasaurus generiert?

Die Forscher entwarfen 12 Formen, um die Punkte auf die Erstellung des zu lenken Dutzend Datasaurus. Jedes der folgenden Diagramme und tatsächlich alle mittleren Frames haben die gleichen zusammenfassenden Statistiken wie der ursprüngliche Datasaurus. Natürlich ist die Strategie nicht auf ein bestimmtes Format beschränkt; jede Gruppierung von Liniensegmenten kann als Ziel verwendet werden. Von dort aus können die Forscher beobachten, wie sich Datenpunkte von einer Form in eine andere umwandeln, wenn sie nacheinander durch die Datensätze durchlaufen werden, während sie während des gesamten Prozesses dieselben statistischen Zusammenfassungswerte bis auf zwei Dezimalstellen beibehalten.