La curation gouvernée des données comble le fossé entre les données et les métiers.
Les sources de données sont de plus en plus complexes, diverses et nombreuses. Pour ne pas se perdre, il devient maintenant indispensable de réaliser une cartographie des données. En conséquence, les déploiements BI modernes reposent plus que jamais sur une bonne gouvernance des données. Alors que davantage d'employés prennent des décisions en fonction des données, les entreprises doivent s'assurer de la précision de celles-ci, ainsi que de leur bonne utilisation dans les analyses.
Un accès élargi aux données pose des difficultés en matière de gestion et de contrôle des données. Pour y faire face, les entreprises se tournent vers la curation des données. Celle-ci englobe les méthodes de collecte, de nettoyage, de définition et d'alignement des données disparates d'une entreprise. Ce processus permet de combler le fossé entre les données et leur utilisation concrète.
Dans un souci de clarté aussi bien interne qu'externe, les entreprises consacrent déjà un budget important à des technologies intégrant la définition de données à leurs outils analytiques. En réaction, les outils et processus de curation des données (comme les catalogues de données et la gouvernance sémantique) se combinent aux plates-formes BI pour lier les données au contexte des unités métier.
Un catalogue de données fonctionne essentiellement comme un glossaire métier de sources de données et de définitions de données communes pour l'entreprise. Les spécialistes, comme les ingénieurs Data et les responsables des données, peuvent ajouter des descriptions et des définitions à des champs et des sources de données. Elles sont ainsi clairement identifiables, ce qui favorise la découverte d'informations. Les experts peuvent également ajouter de précieux indicateurs de qualité des données, notamment des notifications de certification de contenu fiable, de maintenance ou de suppression d'ensembles de données.
Les utilisateurs ordinaires n'ont pas besoin de savoir où se situent les données au sein de leur source, mais ils veulent pouvoir comprendre ce que celles-ci représentent dans le monde réel. Par exemple, les analystes et les consommateurs de contenu doivent souvent vérifier l'origine d'une donnée (on parle également « d'analyser la traçabilité »). Et, si les ensembles de données évoluent, les ingénieurs Data et les responsables des données auront besoin d'en analyser l'impact en aval sur leurs tables et schémas. Combiner un catalogue de données et une plate-forme BI aide à rationaliser toutes ces tâches. En effet, cela permet d'obtenir des statistiques d'utilisation pour identifier rapidement les sources de données et les tableaux de bord les plus fréquemment utilisés.
Aussi nécessaires que soient les catalogues de données, la gouvernance des métadonnées offre des opportunités encore plus prometteuses dans le domaine de la gouvernance sémantique. La sémantique permet de comprendre le contexte des données, mais également l'intention des actions analytiques. Elle peut par exemple trouver des correspondances entre des synonymes pour relier des commandes telles que « volume de la commande » et « quantité ». Elle offre aux utilisateurs d'autres moyens d'interagir avec les données et de déceler rapidement de nouvelles informations exploitables. Les interactions en langage naturel en sont un parfait exemple : une plate-forme BI est capable de comprendre des couches de plusieurs questions, du type « mettre en évidence la valeur la plus élevée, la plus basse et la moyenne ».
À mesure que ces technologies et processus continueront de converger, la curation des données et la sémantique offriront une base de plus en plus solide au reste de l'expérience analytique. Cela permettra d'unifier des composants plus disparates de l'écosystème des données, par exemple le nettoyage et l'analyse en aval. Par ailleurs, les recommandations automatiques en matière de tables, de jointures et de modèles de données seront plus pointues. Enfin, grâce aux avancées en matière de curation des données, les employés ne se contenteront plus d'interroger leurs données pendant l'analyse : à l'avenir, ils les interrogeront sur leurs activités.