Durch das Kuratieren regulierter Daten wird die Lücke zwischen Daten und Geschäft geschlossen.
Angesichts der zunehmenden Komplexität, Vielfalt und Anzahl der Datenquellen spielt Data Curation bei modernen BI-Bereitstellungen heute eine wichtige Rolle. Immer mehr Mitarbeiter treffen datengesteuerte Entscheidungen, daher müssen Organisationen für präzise Daten und Datenanalysen sorgen.
Den Datenmanagement- und Data-Governance-Herausforderungen, die mit dem zunehmenden Datenzugriff einhergehen, begegnen Organisationen mit Datenkuratierung. Darunter versteht man die Art und Weise, wie ein Unternehmen verstreute Daten erfasst, bereinigt, definiert und ausrichtet. Durch die Kuratierung wird die Kluft zwischen den Daten und deren Anwendungen in der realen Welt überbrückt.
Schon heute geben Organisationen Millionenbeträge für Technologien aus, um Datendefinitionen in die Analytics-Tools zu integrieren, mit denen Daten analysiert werden. Auf diese Weise sollen team- und organisationsübergreifend Klarheit und Eindeutigkeit geschaffen werden. Dementsprechend verschmelzen Tools und Prozesse zur Datenkuratierung (etwa Datenkataloge und semantische Governance) zusehends mit BI-Plattformen, die Daten in einen geschäftlichen Kontext setzen.
Ein Datenkatalog funktioniert wie ein unternehmensweites geschäftliches Glossar der Datenquellen und geläufigen Datendefinitionen. Fachleute wie Data Engineers und Datenverwalter können Datenquellen und -felder um Beschreibungen und Definitionen ergänzen, mit Tags für eine leichtere Auffindbarkeit sorgen und sogar hilfreiche Indikatoren zur Datenqualität hinzufügen – beispielsweise in Form von Benachrichtigungen über die Zertifizierung vertrauenswürdiger Inhalte oder durch Wartung und ggf. Herabstufung von Datenbeständen.
Der durchschnittliche Benutzer muss den genauen Speicherort von Daten in einer Datenquelle nicht kennen. Wichtig ist für ihn aber, zu verstehen, welchen Teil der realen Welt die Daten widerspiegeln. Beispielsweise müssen Analysten und Benutzer von Inhalten oft im Rahmen einer sogenannten „Lineage Analysis“ (Abstammungsanalyse) die Herkunft eines Datenelements verifizieren. Und wenn sich Datensätze ändern, müssen Data Engineers und Datenverwalter die Auswirkungen auf solche Datenbestände analysieren, die mit von ihnen verwalteten Tabellen oder Schemata verbunden sind. Durch Verknüpfung eines Datenkatalogs mit einer BI-Plattform können all diese Aufgaben vereinfacht werden: Anhand von Nutzungsstatistiken lassen sich dann im Handumdrehen die am häufigsten abgerufenen Datenquellen und Dashboards ermitteln.
So unerlässlich Datenkataloge auch sein mögen, ein noch größeres Potenzial birgt womöglich die Metadaten-Governance im Bereich der semantischen Governance. Semantische Informationen helfen nicht nur bei der Kontextualisierung von Daten, sondern auch beim Verstehen der Benutzerabsicht hinter bestimmten Analyseaktionen – so lassen sich etwa Synonyme zuordnen, um Befehle wie „Bestellgröße“ und „Menge“ miteinander zu verbinden. Dies eröffnet allen, die mit Daten arbeiten, neue Wege der Dateninteraktion und des schnellen Erkenntnisgewinns. Eine Möglichkeit ist die Interaktion in natürlicher Sprache: Eine BI-Plattform versteht Schichten, die mehrere Abfragen umfassen, beispielsweise „Höchstwert, Tiefstwert und Durchschnitt anzeigen“.
Je mehr diese Technologien und Prozesse miteinander verschmelzen, desto mehr kann das übrige Analytics-Erlebnis von Datenkuratierung und Semantik profitieren. So werden bislang eher verstreute Bestandteile einer Datenumgebung, z. B. Bereinigung und nachgelagerte Analysen, zusammengeführt oder zuverlässigere automatische Empfehlungen für Tabellen, Verknüpfungen und Datenmodelle ermöglicht. Zu guter Letzt versetzen Fortschritte in der Datenkuratierung Mitarbeiter in die Lage, bei der Analyse nicht mehr nur Fragen zu ihren Daten zu stellen, sondern Fragen zu ihrem Geschäft.