Grundlagen der Datenvorbereitung: Was ist eine Aggregatfunktion und wie lassen sich aggregierte Daten miteinander kombinieren?
Was ist eine Aggregatfunktion?
Daten werden mit ganz unterschiedlicher Granularität erzeugt und analysiert. „Granularität“ ist dabei ein Maß für die Detailgenauigkeit der Daten. Betrachtet man sich beispielsweise die Abschlusszahlen einer Hochschule, würde man über die Granularität ausdrücken, ob eine Zeile im Datensatz für eine einzelne Person oder den gesamten Jahrgang der Hochschule steht.
Was aber, wenn Sie einen Datensatz mit Studenteninformationen nehmen und einen Wert für den gesamten Jahrgang ermitteln wollen, also wenn Sie die Granularität senken möchten? Aggregation und Granularität sind zwei Konzepte, die sich gegenseitig ergänzen. Aggregation ist eine mathematische Operation, bei der mehrere Werte verwendet werden und die am Ende einen Wert zurückgibt, also zum Beispiel eine Summe, einen Mittelwert, eine Anzahl oder ein Minimum. Nach dieser Operation haben die Daten eine geringere Granularität (bzw. eine höhere Detailgenauigkeit).
Was Sie über Aggregationen gern wissen möchten, kann manchmal auch davon abhängen, was erreicht werden soll. Wie Sie aggregierte Daten miteinander kombinieren können, erfahren Sie weiter unten, und wenn Sie wissen möchten, wie Werte in Tableau Prep aggregiert werden können, besuchen Sie die Online-Hilfe.
Sehen Sie sich das kostenlose Schulungsvideo zum Aggregieren in Tableau Prep an.
Aufbau von Aggregationen
Beim Aggregieren zu Analysezwecken gibt es zwei Dinge zu berücksichtigen:
- Wie soll das Ergebnis strukturiert sein? Überlegen Sie sich, welche neue Granularität die Daten haben sollen, also wofür eine Zeile stehen soll. Wenn Sie z. B. die Wahlbeteiligung analysieren, soll sie auf Ebene der Partei angezeigt werden? Oder auf der Ebene der Partei und des Wahlbezirks? Oder auf der Ebene der Partei, des Wahlbezirks, der Altersgruppe und des Geschlechts? Das Feld bzw. die Felder, nach denen sich richtet, woraus eine Zeile besteht, sind (in Tableau Prep) die Gruppierungsfelder.
- Wie sollen mehrere Werte zu einem Wert aggregiert werden? Soll zum Beispiel die Zahl der Shirts in jeder Farbe summiert werden, um die Gesamtzahl der Shirts zu erhalten? Wollen wir aus der Höchsttemperatur jeder Stunde des Tages einen Tageshöchstwert ermitteln? Ist es das Ziel, die eindeutige Anzahl von IP-Adressen zu ermitteln, die auf eine Webseite zugegriffen haben, um Auskunft über eindeutige Seitenaufrufe zu erhalten?
Numerische Felder können, je nach gewünschtem Ergebnis, mithilfe verschiedener mathematischer Operationen aggregiert werden. Eine vollständige Liste aller Operationen finden Sie hier. Dazu gehören:
- Summe
- Mittelwert oder Median
- Anzahl oder Anzahl (eindeutig)
- Minimum oder Maximum
- Es können auch verschiedene statistische Operationen durchgeführt werden, wie z. B. die Ermittlung der Varianz und der Standardabweichung.
Datumsangaben und textbasierte Felder können als Anzahl, Anzahl (eindeutig), Maximum oder Minimum aggregiert werden (bei Text basieren Maximum und Minimum auf der Sortierreihenfolge).
Kombinieren aggregierter Daten
Es kommt häufig vor, dass Daten mit unterschiedlicher Granularität miteinander kombiniert werden müssen. Um zum Beispiel einen umfassenden Überblick für eine Geodatenanalyse zu erhalten, ist es häufig erforderlich, Daten auf Stadtebene mit Daten auf Länderebene zu kombinieren.
Eine häufige Methode für das Kombinieren von Daten sind Verknüpfungen. Wenn wir aber Daten mit unterschiedlicher Granularität miteinander verknüpfen, führt dies unweigerlich zu Datenreplikations- oder Datenverlustproblemen.
Nehmen wir an, wir haben zwei Datentabellen: eine mit der beobachteten Zahl von Picknickdecken in verschiedenen Farben pro Jahr und eine mit der Zahl der Ameisen, die in einem Jahr gesichtet wurden. Die Daten sehen so aus:
Wenn wir die Tabellen miteinander verknüpfen, passiert Folgendes:
- Entweder wir wiederholen die Zahl der gesichteten Ameisen für jede Deckenfarbe ODER
- Wir verlieren die Informationen auf der Ebene der Farbe
Wenn wir beides nicht möchten, können wir das Verknüpfen der Tabellen weglassen und die Analysen anhand der beiden Tabellen einzeln durchführen.
1. Wiederholen der Zahl der gesichteten Ameisen für jede Deckenfarbe: Wenn wir diese Tabellen miteinander verknüpfen würden, könnten wir einfach die Zahl der gesichteten Ameisen in einem bestimmten Jahr für jede Zeile in der Deckentabelle replizieren. Das Ergebnis würde wie folgt aussehen:
Die Daten so zu strukturieren ist aber nicht ideal, da wir für jedes Jahr immer wieder dieselbe Zahl von Ameisen wiederholen. Für die Analyse würde das bedeuten, dass wir bei einer reinen Ausgabe des Jahres („Year“) und der Zahl der Ameisen („Number of ants“) (als Summe) die Zahl der Ameisen vervierfachen. Um dies zu verhindern, müssen wir eine andere Aggregation (wie Mittelwert oder Minimum) verwenden oder mit einem Detailgenauigkeitsausdruck die Zahl der Ameisen pro Jahr korrigieren, um das versehentliche Zählen von zu vielen Ameisen zu vermeiden: {FIXED [Year] : MIN([Number of ants])}.
Wenn Daten so wie in der Tabelle oben strukturiert werden, ist das auch deshalb möglicherweise irreführend, weil man problemlos annehmen könnte, dass auf den 18 grauen Decken, die 2015 gezählt wurden, 52.056 Ameisen gesehen wurden. Die meisten Datensätze mit diesem Erscheinungsbild sind so strukturiert, dass jede Zeile für eine unabhängige Beobachtung steht, was zu Fehlinterpretationen führen könnte, wenn dies nicht der Fall ist.
2. Wir verlieren die Informationen auf der Ebene der Farbe: Um das zu verhindern, können wir die Zahl der Decken aggregieren, indem wir vor dem Verknüpfen die Informationen zur Farbe beiseitelassen. So erhalten wir einen einzelnen Datensatz mit Angaben zur Zahl der Ameisen und Decken für jedes Jahr.
Die Daten werden bei dieser Variante weder repliziert noch sind sie missverständlich, das Problem ist aber, dass die Aufschlüsselung nach Farbe vollkommen verloren gegangen ist. Tipp: Denken Sie daran, dass Änderungen an der Detailgenauigkeit immer nur in Richtung einer stärkeren Aggregation, niemals in Richtung einer stärkeren Granularität erfolgen können. Anderenfalls gehen die Informationen zur Farbe ganz verloren.
Die letzte Variante besteht darin, die Daten nicht zu verknüpfen und beide Tabellen separat zu lassen. Die Analyse führen wir dann nach Deckenfarbe oder nach Ameisen durch, nicht aber anhand beider Kriterien in einem gemeinsamen Datensatz.
Fazit
Wir wissen jetzt, welche Auswirkungen eine Aggregation haben kann, und können daher unsere Daten passend für unsere Analyse aggregieren, kombinieren und strukturieren. Wenn Sie erfahren möchten, wie Sie in Tableau Prep eine Aggregation vornehmen können, sehen Sie sich das kostenlose Schulungsvideo zum Schritt „Aggregieren“ an.
Tableau Prep ist ein Tool, mit dem jeder seine zu analysierenden Daten schnell und sicher kombinieren, formen und aufbereiten kann. Erfahren Sie mehr über Tableau Prep oder testen Sie es kostenlos.
Zugehörige Storys
Blog abonnieren
Rufen Sie die neuesten Tableau-Updates in Ihrem Posteingang ab.