Best Practices zur Aufbereitung von Daten mithilfe von Tableau Prep
Daten können in einer schwindelerregenden Formatvielfalt generiert, erfasst und gespeichert werden, doch für Analysen sind längst nicht alle Datenformate gleich gut geeignet.
Bei der Datenvorbereitung werden „schmutzige Daten“ aufbereitet, schlecht strukturierte Daten umstrukturiert und mehrere Datensätze zur Analyse zusammengeführt. Dazu gehören auch das Umwandeln der Datenstruktur (zum Beispiel in Zeilen und Spalten) und das Aufbereiten von Elementen wie Datentypen und Werten. Die Geschwindigkeit und Effizienz Ihres Datenvorbereitungsprozesses wirkt sich direkt auf die erforderliche Zeit bis zur Gewinnung von Erkenntnissen aus. Der gesamte Prozess lässt sich beschleunigen, wenn Sie den Umfang der zu analysierenden Daten kennen und Ihre Änderungen an den Daten sehen.
Ganzheitliche Betrachtung Ihrer Daten
Bevor Sie sich ans Werk machen, sollten Sie sich unbedingt überlegen, wie die Benutzer die von Ihnen vorbereiteten Daten verwenden werden. Wenn Sie diesen Zusammenhang verstehen, können Sie leichter festlegen, welchen Datensatz Sie verwenden, wie viele Daten Sie in Ihr Datenvorbereitungstool importieren und wie Sie die Daten letztendlich strukturieren und formatieren. Als Erstes müssen Sie einige grundlegende Fragen beantworten:
Wer macht die Analyse?
Überlegen Sie sich, wer Ihren fertigen Datensatz letztendlich verwenden wird. Sind Sie vielleicht der einzige Benutzer, der auf alle Teile der Daten zugreifen wird und diese verstehen muss, um sie gründlich zu analysieren? Oder wird der Datensatz von einem Mitarbeiter in einer anderen Rolle verwendet, zum Beispiel von einem Marketing-Manager, der anhand bestimmter ausgewählter Kennzahlen nachvollziehen muss, wie erfolgreich eine Kampagne ist? Im letzteren Fall sollten Sie den Datensatz am besten auf diese Kennzahlen beschränken.
Vielleicht enthält eine Datentabelle einen Produktcode, der Marketing-Manager braucht aber den Produktnamen. In diesem Fall würden Sie die Tabellen „Daten“ und „Fakten“ verknüpfen, um die Informationen abzurufen. Die Zielgruppe ist bei der Vorbereitung der Daten ähnlich entscheidend wie beim Erstellen eines Dashboards.
Welche Arten von Fragen müssen gestellt oder beantwortet werden?
Beim Datenvorbereitungsprozess müssen Sie wissen, wie die Benutzer den fertigen Datensatz verwenden werden – für eine komplexe Analyse oder für eine kurze Zusammenfassung. Dieser Aspekt wirkt sich ganz erheblich auf den Datenvorbereitungsprozess aus, denn er definiert den Arbeitsaufwand und die Anzahl der Details.
In der Regel können Sie die häufigsten Fragen vorhersagen, die die Benutzer den Daten stellen werden. Dazu müssen Sie nur die strategischen Prioritäten des Unternehmens kennen, doch wahrscheinlich werden auch unerwartete Fragen auftauchen. Bei der Vorbereitung eines Datensatzes müssen Sie zwischen der Beantwortung der unmittelbaren Fragen und der Möglichkeit weiterer Untersuchungen abwägen. Ein Mitarbeiter könnte zum Beispiel eine Umsatzentwicklung während der letzten sechs Monate erkennen, doch die nähere Untersuchung eines Ausreißers in einer bestimmten Woche erfordert eine gründlichere Analyse und eine taggenaue Granularität der Daten.
Wo befinden sich die Daten?
Bei dieser Frage sind einige grundlegende Überlegungen anzustellen. Verfügen Sie zum Beispiel über die erforderlichen Berechtigungen, um auf eine bestimmte Datenquelle zuzugreifen, und besitzt die Datenquelle die richtige Struktur? Mit anderen Worten: Können Sie die gewünschte Analyse durchführen, wenn Sie die Datenquelle in Tableau importieren? Sie müssen beide Fragen beantworten, bevor Sie mit dem Datenvorbereitungsprozess beginnen.
Nähere Informationen darüber, wie Daten für eine Analyse in Tableau Desktop strukturiert sein sollten, finden Sie in der Online-Hilfe.
Sobald Sie auf die erforderlichen Daten zugreifen können, müssen Sie feststellen, wo sich all die Daten befinden. Fragen Sie sich: Befinden sich die Daten in einer einzelnen Tabelle oder in mehreren Tabellen in einer einzelnen Datenbank? Unter Umständen müssen Sie mehrere Datenbanken kombinieren, um zum Kern Ihrer Fragen zu gelangen. Möglicherweise müssen Sie aber auch eine externe Datenquelle einbeziehen, falls Sie eine robustere Ansicht benötigen. Sie möchten zum Beispiel die Schülernoten in Ihrem Schulbezirk analysieren und dabei den Einfluss des sozioökonomischen Status betrachten. Deshalb integrieren Sie Volkszählungsdaten. Häufig müssen externe Datenquellen herangezogen werden, um die vollständige Story zu erhalten.
Kenntnis der grundlegenden Struktur Ihrer Daten
Nachdem Sie nun wissen, wie die Daten verwendet werden, wer sie nutzen wird und wo sie sich befinden, müssen Sie verstehen, wie sie aufgebaut sind. Sie würden sich ja auch niemals an den Umbau Ihres Hauses heranwagen, ohne zu wissen, wo sich die tragenden Wände befinden. Analog hierzu würden Sie keine Datenvorbereitung beginnen, ohne zu wissen, welche Felder voneinander abhängig sind oder miteinander zusammenhängen, wie die Daten eingegeben wurden (manuell oder automatisch) oder welche Detailgenauigkeit vorliegt. Wenn Sie Ihre Datenstruktur kennen, können Sie einen Entwurf erstellen, bevor Sie mit dem Datenvorbereitungsprozess weitermachen.
Kenntnis des betrachteten Elements
Bevor Sie Daten in ein Datenvorbereitungstool importieren, sollten Sie unbedingt wissen, womit Sie arbeiten und ob Sie den gesamten Datensatz betrachten oder nur einen Teildatensatz. Bevor Sie mit der Aufbereitung beginnen, müssen Sie unter Umständen erst ein wenig Datenexploration betreiben.
Anpassung Ihrer Stichprobengröße
Wenn Sie eine Verbindung zu einem großen Datensatz herstellen, sollten Sie sich am besten auf eine Stichprobe der Daten beschränken, um Ihren Datenvorbereitungsprozess zu beschleunigen und die Leistung zu optimieren. In manchen Fällen werden Sie aber auch den kompletten Datensatz sehen wollen. Tableau Prep bietet Ihnen beide Optionen. Wenn Ihnen eine Stichprobe bei Ihrer Datenvorbereitungsaufgabe nicht weiterhilft, können Sie einen der folgenden Schritte ausprobieren:
- Verwenden Sie eine größere Stichprobe Ihrer Daten. Gehen Sie zum Eingabeschritt zurück und passen Sie die Anzahl der Zeilen in der Stichprobe an. Sie können die Anzahl der Zeilen erhöhen oder alle Daten einbeziehen, was sich jedoch auf die Leistung auswirken und den Prozess verlangsamen könnte. Ein weiterer Nachteil besteht darin, dass durch eine feste Anzahl der Zeilen das zurückgeben wird, was die zugrunde liegende Datenbank als Kriterien verwendet, um die angeforderten Zeilen schnellstmöglich zurückzugeben. Das sind also nicht zwangsläufig die obersten 1.000 Zeilen in der Datenbank.
- Verwenden Sie zufällige Stichproben. Standardmäßig berechnet Tableau Prep die optimale zurückzugebende Anzahl der Zeilen abhängig von der Gesamtanzahl der Felder im Datensatz und von den Datentypen dieser Felder. Die zufällige Stichprobenentnahme erfolgt auf Datenbankebene und gibt die angeforderte Anzahl der Zeilen zurück. Die Datenbank betrachtet jede Zeile und gibt eine Stichprobe zurück. Diese Option ist nicht für alle Datenquellen verfügbar und könnte die Leistung beeinträchtigen.
- Fügen Sie einen Filter beim Eingabeschritt hinzu. Durch Hinzufügen eines Filters beim Eingabeschritt stellen Sie sicher, dass die in Ihren Datensatz importierten Daten für Ihre Analyse relevant sind. So erhalten Sie eine repräsentativere Stichprobe, ohne die Leistung zu beeinträchtigen.
Untersuchung Ihrer Daten
Als Erstes werden Sie wahrscheinlich die eindeutige Anzahl der Werte in einem bestimmten Feld sehen wollen. Bei dem Beispiel unten reicht ein kurzer Blick auf den Spaltenkopf, um die Anzahl der in dem Datensatz dargestellten Bundesstaaten abzulesen. Wahrscheinlich wollen Sie auch wissen, wie die unterschiedlichen Werte zusammenhängen, um Ausreißer oder Probleme in den Daten erkennen zu können. In Tableau Prep können Sie die Hervorhebungsfunktion verwenden, um felderübergreifende Beziehungen zu entdecken. Wenn Sie auf einen Wert im Profilbereich klicken, wird die Datengitteransicht auf die Einträge eingeengt, die diesen Wert im angegebenen Feld enthalten. Tableau Prep hebt die Werte felderübergreifend hervor und stellt die zusammenhängenden Werte blau dar.
Löschen nicht benötigter Daten
Importieren Sie nur die Felder in Tableau Prep, die Sie für Ihre Analyse benötigen, um die Gesamtleistung Ihres Datenvorbereitungsprozesses zu optimieren.
Angenommen, Sie bereiten einen Datensatz vor, der die Vertriebs- und Produktdaten Ihres Unternehmens darstellt. Sie wissen, dass Sie diesen Datensatz später in Tableau importieren werden, um die Vertriebsperformance für das Jahr zu analysieren. In diesem Fall müssen Sie das Versanddatum jedes Produkts vielleicht gar nicht einbeziehen, weil es kaum Aufschluss über den Umsatz oder den Grund gibt, warum ein Kunde das Produkt gekauft hat. Es gibt nur an, wann das Produkt das Lager verlassen hat. Deshalb können Sie es wahrscheinlich aus der Datenquelle entfernen. Wenn Sie bei der Vorbereitung feststellen, dass Sie irgendein Feld nicht mehr benötigen, können Sie es einfach während der Ausführung Ihres Schemas entfernen.
Tipp: Während des Datenvorbereitungsprozesses können Sie auch damit beginnen, Felder in mehrere Spalten aufzuteilen. Wahrscheinlich werden Sie die soeben aufgeteilte ursprüngliche Spalte nicht mehr benötigen. Deshalb können Sie diese gleich löschen.
Auch das Filtern Ihrer Daten spart Zeit in dem Prozess und stellt sicher, dass Sie die richtige Analyse durchführen. Wenn Sie beispielsweise nur die Vertriebsdaten aus den letzten beiden Jahren betrachten müssen, filtern Sie Ihr Datenfeld mit dem Filter „Bereich“ oder „Relatives Datum“, um nur diesen Zeitrahmen zu berücksichtigen. Es könnte auch irrelevante oder fehlerhafte Daten geben, die Sie entfernen möchten. Dann klicken Sie einfach im Datenbereich auf den fraglichen Wert und schließen ihn aus. Das ist in Ihrem Schema jederzeit möglich.
Überprüfung und Aufbereitung
In Tableau wirken sich die Datentypen auf Ihre Analyse aus. Deshalb ist es wichtig, jedes Feld richtig zu kennzeichnen, bevor Sie sich in Ihre Analyse stürzen. In Tableau können Sie zwar Aliasse bearbeiten, Datentypen ändern, Felder teilen und Berechnungen schreiben, allerdings ist es viel einfacher, diese Aktionen im Voraus durchzuführen, vor allem wenn Sie den Datensatz für einen anderen Benutzer erstellen.
Es ist wichtig, die Datenqualität jedes Feldes zu verstehen. Die bei einer Umfrage gesammelten Telefonnummern könnten beispielsweise in unterschiedlichen Formaten erfasst worden sein, vor allem wenn ein globaler Mitarbeiterpool diese Umfrage durchgeführt hat. Die manuelle Überprüfung von zig Tausenden, wenn nicht Millionen eindeutigen Werten auf deren Einheitlichkeit ist häufig eine mühselige und fehleranfällige Arbeit. Das Erkennen von Mustern und die Massenaktualisierung von Daten resultieren in einem deutlich besser strukturierten Datensatz. Und dank der in Tableau Prep integrierten Funktionen – zum Beispiel die Schnellaufbereitungsschritte, mit denen sich Satzzeichen, Zahlen, Buchstaben oder überzählige Leerzeichen entfernen lassen – können Sie diese Änderungen ganz mühelos vornehmen, was Ihnen Zeit spart und Ihr Nervenkostüm schont.
Wenn Ihr Feld „Bundesstaat“ die Einträge „California“ und „CA“ enthält, während sonst die vollen Namen der Bundesstaaten als Werte angegeben sind, können Sie die Werte direkt ändern, und schon schließen die Einträge zu „California“ auch die Instanzen von „CA“ ein.
Unter Umständen stellen Sie auch fest, dass Ihre Daten, abgesehen von wenigen Ausnahmen, korrekt sind. Tableau Prep ist intelligent. Es hilft bei der Standardisierung der Werte, indem es die Schwerstarbeit von Algorithmen erledigen lässt. Vielleicht gibt es bei Ihnen eine Datenspalte, in die Ihre Kunden ihren Wohnort eingeben. Wenn Sie kurz durch die Spalte scrollen, werden Ihnen mehrere Rechtschreibfehler bei der Stadt Albuquerque auffallen. Anstatt nun jeden Fehler manuell korrigieren zu müssen, bietet Ihnen Tableau Prep eine integrierte Funktion zum Gruppieren und Ersetzen häufiger Rechtschreib- oder Aussprachefehler. Diese Optionen verwenden Algorithmen, um Ihnen den Aufbereitungsprozess zu erleichtern. Oder wenn Sie davon ausgehen, dass ein Wert fehlen wird, können Sie ihn manuell hinzufügen, damit er übernommen wird, wenn der gesamte Datensatz das Schema durchläuft. Wenn Sie wissen, dass ein Feld aufbereitet oder gefiltert werden muss, die dafür nötige Option aber auf der Benutzeroberfläche fehlt, können Sie eine Berechnung verwenden.
Kenntnis des Endergebnisses Ihrer Daten
Wenn Sie mit der Vorbereitung Ihrer Daten beginnen, könnten Sie sich davon entmutigen lassen, schon das Erscheinungsbild des fertigen Datensatzes festlegen zu müssen. Unter Umständen müssen Sie mehrere Datenquellen kombinieren oder Ihre Daten von Spalten in Zeilen drehen, damit Tableau sie ordnungsgemäß auswerten kann.
Diese Herausforderung lässt sich zum Beispiel dadurch bewältigen, dass Sie sich vorstellen, wie der Datenbereich in Tableau Desktop aussehen soll. Haben Sie mehrere Spalten mit demselben Wert? Soll ein bestimmtes Produkt als eigene Spalte dargestellt werden, unter der die Umsatztransaktionen aufgelistet sind? Oder sollten alle Produkte in einzelnen Feldern enthalten sein – und die Umsätze in einer separaten Spalte? Wahrscheinlich entscheiden Sie sich für Letzteres. In diesem Fall bietet sich ein Pivot an.
Wenn Sie zwei Tabellen kombinieren müssen, werden Sie die enthaltenen Daten entweder verknüpfen oder zusammenführen. Bei einer Verknüpfung können Sie mehr Felder zu Ihrer Datenquelle hinzufügen, sodass Sie eine größere Anzahl an Feldern analysieren können. Sie können während der Ausführung des Datenvorbereitungsschemas zwar jederzeit eine Verknüpfung hinzufügen, doch je früher Sie diesen Schritt durchführen, desto früher werden Sie auch den Datensatz verstehen und Bereiche aufdecken, mit denen Sie sich umgehend näher befassen müssen.
Analog hierzu können Sie mit einer Vereinigung zwei Datensätze zusammenführen. Bei Ihnen könnte es zum Beispiel eine Excel-Datei geben, in der jedes Blatt Transaktionen aus unterschiedlichen Jahren enthält. Im Gegensatz zu einer Verknüpfung der Tabellen können Sie mit einer Vereinigung dieselbe Struktur beibehalten, die dann allerdings mehr Zeilen enthält.
Beim Verknüpfen oder Zusammenführen von zwei Tabellen sollten Sie die Detailgenauigkeit berücksichtigen. Um die beiden Tabellen ordnungsgemäß zusammenzuführen, müssen Sie unter Umständen die Detailgenauigkeit ändern. Wenn das nicht richtig funktionieren sollte, versuchen Sie am besten, die beiden Tabellen zu aggregieren.
Nachverfolgung Ihrer Schritte
Es ist ganz entscheidend, während des gesamten Vorbereitungsprozesses sehr strukturiert zu arbeiten, damit Sie ggf. zu einem bestimmten Schritt des Prozesses zurückkehren und eine Änderung vornehmen können. Zur Aufbereitung Ihrer Daten müssen Sie zwar keine bestimmte Anleitung befolgen (vielmehr sollten Sie die Daten auf eine Art und Weise vorbereiten, die Ihnen sinnvoll erscheint), doch Ihr Datenvorbereitungsprozess lässt sich viel leichter bearbeiten und aktualisieren, wenn Sie wissen, an welcher Stelle Sie Änderungen vorgenommen haben.
Vorbereitung nach Ihren Vorstellungen
Die Datenvorbereitung umfasst viele verschiedene Komponenten (unter anderem das Umstrukturieren, Umformatieren und Aufbereiten der Daten) und sollte nicht durch eine bestimmte vorgegebene Reihenfolge erschwert werden. Tableau Prep ermöglicht es Ihnen, Ihre Daten auf eine Weise zu ändern und aktualisieren, die Ihnen sinnvoll erscheint. Manche Benutzer werden vermutlich zuerst ihre Daten drehen, während andere sich zunächst mit Rechtschreibfehlern oder fehlenden Daten befassen.
Untergliederung jeder Schritts
Durch die Untergliederung bestimmter Aktionen in neue Schritte sorgen Sie für ein bestens strukturiertes Schema. Betrachten Sie Ihre Schritte als die Ordner in Ihrem Aktenschrank. Sie ordnen die Dateien nach Thema, sodass Sie das Gesuchte leichter finden können. Analog hierzu sollten die Schritte im Schema Änderungen gruppieren, die eine bestimmte Aufgabe erfassen. Das Aufbereiten der Kundennamen könnte beispielsweise das Teilen eines Feldes, die Neuzuordnung einiger Werte und das Anwenden von Filtern auf andere Felder beinhalten, um als Ergebnis der Datenquelle die richtige Kundensegmentierung zu erhalten. Wenn Sie diese Aktionen in demselben Schritt zusammenfassen, können Sie einen aussagekräftigen Namen hinzufügen, der es Ihnen später erleichtert, das Schema zu verstehen. Falls Sie das Schema an andere Analysten weitergeben, können Ihre Kollegen dieselben Aktionen finden und auf diese verweisen, was ihnen die Bearbeitung erleichtert.
Das Nachverfolgen der in jedem Schritt erfolgten Aktionen ist ein Kinderspiel. Sollten Sie eine Aktion bereuen, können Sie diese im Änderungsbereich rasch entfernen oder bearbeiten.
Verwendung von visuellem Feedback
Die Daten lassen sich viel leichter vorbereiten, wenn Sie sehen können, wie sie zusammenhängen, bevor Sie mit Ihrer Analyse beginnen. Hierzu zählen auch Aspekte wie die Anzahl der Zeilen in einem Datensatz nach einer Verknüpfung oder Rechtschreibfehler. Ähnlich wie bei Tableau Desktop hatten wir auch bei der Entwicklung von Tableau Prep stets unsere Mission im Hinterkopf: Den Benutzern zu helfen, ihre Daten zu sehen und zu verstehen.
Datengitter
Mit dem Datengitter in Tableau Prep können Sie sich bestens in Ihren Daten zurechtfinden. Sie können erkennen, wie die Daten nach einer Änderung aussehen und einen Blick auf vorhandene Ausreißer werfen.
Minikarten
Mitunter werden Sie glauben, Ihre Daten wären tadellos strukturiert, doch mithilfe einer Minikarte werden Sie Ausreißer oder einige fehlende Einträge erkennen. Verwenden Sie die Minikarte, um diese Fehler zu ermitteln und die nötigen Änderungen vorzunehmen.
Kenntnis der Verknüpfung
Es kann Ihnen ganz leicht passieren, dass Sie versehentlich die falschen Felder verknüpfen, vor allem wenn Sie mehrere Felder verknüpfen. Tableau Prep verwendet visuelles Feedback, um Ihnen die Ergebnisse einer Verknüpfung anzuzeigen, damit Sie leichter erkennen können, ob es Ausreißer gibt, ob zu viele Daten zurückgegeben werden und ob die Daten korrekt sind.
Niemals aufhören
Die Datenvorbereitung ist ein laufender Prozess. Sie ist nicht vorbei, nur weil Sie alle Rechtschreibfehler oder Verknüpfungen korrigiert haben. Bei einer Aktualisierung des Datensatzes können sich Ihre Fragen ändern oder Sie könnten feststellen, dass Sie ein weiteres Feld hinzufügen müssen. Mit dem Feature „Open sample in Tableau Desktop“ (Stichprobe in Tableau Desktop öffnen“) in Tableau Prep lässt sich leicht testen, wie die Daten später in Ihrer Analyse aussehen werden.
Ausführung des Schemas und Start der Analyse
Nachdem Sie Ihre Daten aufbereitet, umstrukturiert und gefiltert haben, können Sie ihnen jetzt endlich Erkenntnisse entlocken. Im Gegensatz zu vielen anderen Datenvorbereitungstools lässt sich Tableau Prep voll in Ihre BI-Plattform integrieren. Veröffentlichen Sie den Extrakt in Tableau Server oder Tableau Cloud, damit andere Mitarbeiter mir ihrer Analyse beginnen können. Importieren Sie den Extrakt in Tableau Desktop, um Fragen zu stellen und tiefer gehende Untersuchungen anzustellen. Sie haben soeben den arbeitsaufwendigsten Teil des Datenanalyseprozesses beendet. Jetzt dürfen Sie endlich die Früchte Ihrer Arbeit ernten – die Erkenntnisse!
Erste Schritte mit Tableau Prep
Machen Sie gerade Ihre ersten Schritte mit Tableau Prep? Bereiten Sie zum ersten Mal Daten auf? Dann ist dieses Video genau richtig für Sie.