„Schmutzige Daten“ sind sehr kostspielig für Sie: Vier Lösungen für häufige Probleme bei der Datenvorbereitung
Wenn Sie schon Daten analysiert haben, wissen Sie, wie nervig es sein kann, wenn Sie bei näherer Untersuchung Ihrer Daten feststellen, dass diese „schmutzig“, also schlecht strukturiert, ziemlich fehlerhaft oder einfach nur unvollständig sind. Dann bleibt Ihnen nichts anderes übrig, als die Daten in Excel aufzubereiten oder komplexe Berechnungen vorzunehmen, bevor Sie eine einfache Frage beantworten können. Die Datenvorbereitung umfasst Data Discovery sowie Umwandlungs- und Aufbereitungsaufgaben und soll Daten für Analysen vorbereiten. Sie ist somit ein wesentlicher Bestandteil des Analyse-Workflows.
Selbst Benutzer, die nicht direkt mit Datenvorbereitungsaufgaben betraut sind, spüren die Auswirkungen „schmutziger Daten“. Der erforderliche Zeit- und Arbeitsaufwand, um aus zusammenhanglosen Daten umsetzbare Erkenntnisse zu gewinnen, verleitet zu ineffizienten Ad-Hoc-Analysen und führt dazu, dass den Daten der Organisation immer weniger Vertrauen geschenkt wird. Diese langsameren Prozesse können sich letztendlich in verpassten Chancen sowie in Umsatzeinbußen niederschlagen. Forschungsergebnisse von Gartner besagen, dass „Unternehmen finanzielle Einbußen von durchschnittlich 9,7 Millionen USD im Jahr durch schlechte Datenqualität verzeichnen“.1
Wie kommt es zu „schmutzigen Daten“?
Die Unternehmen ergreifen Maßnahmen gegen „schmutzige Daten“, indem sie Datenkataloge und Glossare erstellen. Doch selbst bei Beachtung dieser Best Practices werden im täglichen Betrieb in gewissem Umfang „schmutzige Daten“ ins System gelangen. Zu „schmutzigen Daten“ kommt es häufig durch:
1. Menschliches Versagen
Laut Experian ist dies die häufigste Ursache für „schmutzige Daten“. „Schmutzige Daten“ können vielfältige Ursachen haben. Diese reichen von unterschiedlichen Eingabemethoden bis zu Mitarbeitern, die manuell Werte in Tabellen eingeben. Ein einfacher Rechtschreibfehler kann dann schon ausreichen, um die nachfolgenden Arbeiten vor Probleme zu stellen, etwa wenn jemand die Daten analysieren möchte.
2. Unterschiedliche Systeme
Häufig speichern Organisationen ihre Daten in unterschiedlichen Systemen, die über verschiedene Strukturen, Anforderungen und Aggregationen verfügen. Wenn diese Daten dann integriert werden sollen, müssen sich die Analysten mit doppelten oder fehlenden Feldern bzw. mit uneinheitlichen Beschriftungen herumplagen. Darüber hinaus können Felder oder Werte dieselbe Bedeutung haben, aber in den unterschiedlichen Systemen werden jeweils andere Namen oder Werte verwendet.
3. Veränderliche Anforderungen
Wenn sich Unternehmen weiterentwickeln, müssen die Datenverwalter und Datentechniker Änderungen an den Daten vornehmen. Dabei verändern sie die Granularität der Daten, kennzeichnen Felder als veraltet oder fügen bei Bedarf neue Felder hinzu. Analysten bemerken diese Änderungen oft erst, wenn sie diese in ein Selfservice-BI-Tool oder in ein Tool zur Datenvorbereitung übernehmen.
Vier häufige Probleme bei der Datenvorbereitung und ihre Behebung
Problem: Starre, zeitraubende Prozesse halten nicht mit der Nachfrage Schritt.
Analysten berichten, dass der Großteil ihres Jobs nicht aus Analysen besteht, sondern vielmehr aus der Aufbereitung und Umformatierung von Daten. Dieses Problem kann in ETL-Prozessen, Selfservice-Tools zur Datenvorbereitung oder Tabellenprogrammen wie Microsoft Excel auftreten. Wenn dann neue Daten übernommen werden, müssen Analysten die Daten wieder manuell vorbereiten, um die Struktur anzupassen und um die Daten für die Analyse aufzubereiten. Das führt letztlich zu vergeudeten Ressourcen und erhöht die Anfälligkeit für menschliche Fehler.
Doch nicht nur der Aufwand, den schlecht strukturierte Daten erfordern, sorgt für Frustration. Sowohl Analysten als auch Geschäftsanwender müssen sogar darum kämpfen, überhaupt Zugriff auf die benötigten Daten zu erhalten. Traditionell ist die Datenvorbereitung eine Aufgabe des IT-Teams – und nur bestimmte Teams sind überhaupt in der Lage, Daten vorzubereiten und neue Datenquellen in ein zentralisiertes Data Warehouse zu importieren. Wer diese Fähigkeit nicht besitzt, muss die Datenvorbereitung in Programmen wie Excel selbst vornehmen oder darauf warten, dass ein anderes Team diese Aufgabe übernimmt.
LÖSUNG: Entwicklung agiler Prozesse mit den richtigen unterstützenden Werkzeugen
Einführung einer Selfservice-Datenvorbereitung: Viele Organisationen setzen auf Selfservice-Lösungen zur Datenvorbereitung für die Datenexploration und die Entwicklung von Prototypen. Selfservice-Tools zur Datenvorbereitung verleihen den Anwendern die Kontrolle, die ihre Daten am besten kennen, indem sie den Datenvorbereitungsprozess demokratisieren und die Belastung des IT-Teams reduzieren.
Der Mehrwert eines Selfservice-Tools zur Datenvorbereitung besteht darin, dass Analysten die Ad-hoc-Datenaufbereitung selbst übernehmen können und sich nicht in eine Warteschlange einreihen müssen.
Entwickeln Sie Prozesse in Richtung auf einen iterativen und agilen Ansatz: Jede Organisation hat ganz eigene Anforderungen, und es gibt kein Einheitskonzept für die Datenvorbereitung. Doch bei der Auswahl eines Selfservice-Tools zur Datenvorbereitung sollten die Organisationen darauf achten, dass das Tool die Prozesse so weiterentwickelt, dass ein iteratives, agiles Konzept verwirklicht wird, anstatt neue Zugriffshemmnisse zu erzeugen. Die Mitarbeiter werden einen stärkeren Wunsch verspüren, ihre Daten vorzubereiten und zu verstehen, wenn sie die Auswirkungen ihrer eigenen Datenvorbereitungsschritte sehen. Jason Harmer, Consultant bei Nationwide Insurance, berichtete Folgendes: „Visuelle Datenvorbereitung lässt die Benutzer den gesamten Prozess sehen und potenzielle Warnzeichen früher erkennen – zum Beispiel Rechtschreibfehler in den Daten, überzählige Leerzeichen oder fehlerhafte Join-Klauseln. Außerdem stärkt sie das Vertrauen in die endgültige Analyse.“
Problem: Datenvorbereitung erfordert fundierte Kenntnis der Unternehmensdaten
Vor der Datenvorbereitung müssen die Benutzer unbedingt den Ort, die Struktur und die Zusammensetzung der Daten kennen sowie granulare Details wie Felddefinitionen verstehen. Dieser Prozess ist ein grundlegender Bestandteil der Datenvorbereitung und wird mitunter als „Data Discovery“ bezeichnet. Niemand würde sich auf eine lange Reise begeben, ohne grundsätzlich zu wissen, wohin es gehen soll. Dasselbe Prinzip gilt auch für die Datenvorbereitung.
Mit dem Aufkommen der Selfservice-BI ist Data Discovery für Geschäftsanwender einfacher geworden. Sie verschafft ihnen ein fundierteres Wissen über die vorhandene Struktur und die Inhalte ihrer Datensätze. Aber wegen der Informationssilos haben diese Benutzer häufig weniger Einblick in die gesamte Datenlandschaft ihrer Organisation und wissen nicht, welche Daten vorhanden sind, wo sie sich befinden und wie sie definiert sind. Verwirrung um Datendefinitionen kann beispielsweise eine Analyse verhindern, oder schlimmer noch, im gesamten Unternehmen zu fehlerhaften Analysen führen.
Lösung: Festlegen von Unternehmensstandards für Datendefinitionen
Visuelle Selfservice-Tools für die Datenvorbereitung gestatten es den Analysten, tiefer in die Daten einzutauchen, um ihre Strukturen zu verstehen und Beziehungen zwischen Tabellen zu erkennen. Weil die Analysten das Profil ihrer Daten verstehen, können sie mühelos unerwartete Werte erkennen, die aufbereitet werden müssen. Obwohl diese Technologie Klarheit in die Daten bringt, werden die Benutzer immer noch die Unterstützung anderer Mitarbeiter in ihrem Unternehmen benötigen, um Details wie Felddefinitionen zu verstehen.
Erstellen Sie einen Datenkatalog: Eine Möglichkeit zur Standardisierung von Datendefinitionen in einem Unternehmen ist das Erstellen eines Datenkatalogs. Mit einem Datenkatalog können die Analysten leichter nachvollziehen, wie bestimmte Begriffe innerhalb der jeweiligen Geschäftsanwendung verwendet werden, denn dort werden die für die Analyse relevanten Felder angezeigt, und nicht etwa die ausschließlich systemrelevanten Felder. Für Brian Davis, Projektingenieur bei einem Energieunternehmen, sind Datenkataloge „unbezahlbar“.
Fahren Sie mit Iteration und Innovation fort: Das Erstellen eines Datenkatalogs ist sehr aufwendig. Datenverwalter und Datenfachleute müssen sich zu laufender Iteration verpflichten und [den Datenkatalog] bei sich ändernden Anforderungen immer wieder überprüfen.2. Wenn ein Katalog veraltet ist, kann er tatsächlich der Datenstrategie Ihres Unternehmens schaden. Kommunikation und Besitz sollten von Anfang an in den Prozess integriert sein, um festzulegen, wo sich das Glossar befinden soll und wie oft es aktualisiert und optimiert werden sollte.
Lesezeichen für zusätzliche Informationen
Fünf Best Practices zur Aufbereitung von Daten
Ermitteln Sie den Umfang Ihrer Daten für eine beschleunigte Datenvorbereitung.
Tableau Data Management
Vertrauen, Sichtbarkeit und Governance für die Selfservice-Analytics in großem Umfang
Problem: „Gut strukturierte Daten“ sind eine Frage der Perspektive.
Unterschiedliche Teams haben auch unterschiedliche Anforderungen und Präferenzen bezüglich der Frage, was „gut strukturierte“ Daten ausmacht. Datenbankadministratoren und Datentechniker priorisieren zum Beispiel die Speicherung und Verfügbarkeit von Daten. Sie könnten bspw. Spalten hinzufügen, die ausschließlich für die Nutzung durch Datenbanken bestimmt sind. Wenn ein Datentechniker ein Data Warehouse für Analysen einrichtet, priorisiert er die wesentlichen geschäftlichen Kennzahlen, mit denen sich der Großteil der Fragen beantworten lässt. Wenn die von den Datenanalysten benötigten Informationen nicht bereits im Datensatz enthalten sind, müssen sie die Aggregationen anpassen oder Daten aus externen Quellen importieren. Das Resultat wären dann unter Umständen Datensilos oder fehlerhafte Daten.
Cathy Bridges, Tableau-Entwicklerin bei SCAN Health Plan, berichtete, dass Analysten oftmals einen Datensatz erneut aktualisieren müssen, der bereits von einem anderen Team aufbereitet wurde. „Das Einfügen zusätzlicher Spalten kann ein langwieriger und mühseliger Prozess sein. Wenn ich zum Beispiel Gesamtwerte mit separaten Werten vergleichen möchte, muss ich die Datenquelle duplizieren – und das kann ganz schön aufwendig sein.“
Lösung: Geben Sie den Datenexperten die Kontrolle über die Daten.
Selfservice-Datenvorbereitung befähigt die Analysten dazu, die Datensätze auf eine Weise aufzubereiten, die zu ihren Analysen passt, was zu schnelleren Ad-Hoc-Analysen führt und ihnen gestattet, auftauchende Fragen umgehend zu beantworten. Das entlastet auch das IT-Team, das die Daten nicht jedes Mal neu strukturieren muss, wenn eine unerwartete Frage auftaucht. Außerdem lässt sich so doppelte Arbeit vermeiden, weil andere Analysten diese Modelle wiederverwenden können. Wenn die Datensätze für ein breites Publikum wichtig sind, können Sie sie in Zukunft zu einem kanonischen Datensatz kombinieren.
Ein Datenvorbereitungstool sollte die einmaligen Fragen der Analysten bedienen und außerdem wiederholbar sein.
Problem: Datenvorbereitungssilos – eine unsichtbare Realität
Erweiterte Datenvorbereitungstools können komplex sein, weshalb die Nutzung dieser Funktion häufig einigen ausgewählten Power-Usern vorbehalten ist. Doch selbst wenn Analysten und Geschäftsanwender keinen Zugriff auf Datenvorbereitungstools haben, bedeutet das nicht, dass sie diese Aufgaben nicht schon längst in anderen Anwendungen erledigen. Selfservice-BI-Tools haben die Datenanalysefunktionen für Benutzer jeder Qualifikationsstufe verfügbar gemacht, doch um ihren Daten tatsächlich Erkenntnisse zu entlocken, müssen sich diese Benutzer immer noch darauf verlassen, dass das IT-Team bestens strukturierte Daten bereitstellt.
Anstatt tage- oder monatelang auf die Daten warten zu müssen, extrahieren die Benutzer Daten aus Systemen und bereiten ihre Daten in Arbeitsblättern vor. Daraus resultiert ein neu strukturierter Datensatz, der nur einem einzigen Zweck dient, und häufig betreiben die einzelnen Abteilungen doppelten Aufwand, ohne es zu wissen. Dieser Prozess bringt übermäßig viele Datensilos hervor, die weder effizient oder skalierbar sind, noch kontrolliert werden.
Je mehr Silos bei uns vorhanden sind, desto mehr Interpretationen der Daten sind möglich. Dies erhöht das Misstrauen.
Lösung: Konsistenz und Zusammenarbeit bei der Datenvorbereitung
Begegnen Sie Silos durch verstärkte Zusammenarbeit: Forschungsergebnisse des Business Application Research Center (BARC) zeigen, dass die Unternehmen am zufriedensten mit ihren Datenvorbereitungsprozessen waren, die „die Datenvorbereitung zu einer gemeinsamen Aufgabe der IT- und Geschäftsabteilungen gemacht hatten“.
Unterstützen Sie Analysten bei der Ermittlung von Nuancen in den Daten: Um Selfservice-Datenvorbereitung in einer ganzen Organisation einzuführen, müssen die Benutzer alle Einzelheiten der Daten kennen. Da dieses Wissen traditionell dem IT-Team und den Datentechnikern vorbehalten war, müssen sich die Analysten unbedingt die Zeit nehmen, um die Nuancen in den Daten in Erfahrung zu bringen. Hierzu zählen auch die Granularität und jegliche Umwandlungen, denen der Datensatz unterzogen wurde. Die Planung regelmäßiger Eincheckvorgänge oder eines standardisierten Workflows ermöglicht es den Datentechnikern, das aktuelle Verfahren für das Abfragen von und das Arbeiten mit gültigen Daten bekannt zu geben und die Analysten gleichzeitig dazu zu befähigen, die Daten schneller und selbstbewusster vorzubereiten.
1. Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement (Wie Sie einen Business Case zur Verbesserung der Datenqualität erstellen). 9. Januar 2017, https://www.gartner.com/smarterwithgartner/how-to-create-a-business-cas….
2. TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing (Fünf wesentliche Elemente, die in Ihrem Unternehmensglossar für Datensicherheit fehlen könnten). 16. Februar 2016, https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-e….