管理されたデータキュレーションにより、データとビジネスの間のギャップが埋まる。
データソースの複雑化、多様化が進み、その数が膨大なものとなっていることから、モダン BI を導入するにあたって、データ管理がこれまで以上に重要となっています。より多くの従業員がデータを使用して意思決定を行うようになるにつれ、組織はデータマネジメントの強化を通してデータの正確性を確保し、そのデータが分析に使用されるようにする必要があります。
組織は、より広範なデータアクセスによって生じる、データの管理とガバナンスに関する課題に対応するために、データキュレーションを行うようになりました。データキュレーションとは、異なったデータの収集、クリーニング、定義、調整といった企業で行われるデータ処理のことです。このプロセスによって、データとその実際の用途の間に横たわるギャップを埋めることができます。
組織はすでに、部門や組織全体に存在する曖昧さを取り除くため、データ分析に役立つ分析ツールとデータ定義を統合するテクノロジーに何百万ドルもの資金を投じています。これを受けて、データキュレーションのツールやプロセス (データカタログやセマンティックガバナンスなど) は、BI プラットフォームと統合しつつあり、データをビジネスのコンテキストに結び付けています。
データカタログは、データソースと一般的なデータ定義のエンタープライズビジネスグロッサリーとして機能します。データエンジニアやデータスチュワードなどの特定分野の専門家は、データソースやフィールドに説明や定義を追加し、タグ付けによってデータの発見可能性を向上できるほか、有用なデータ品質指標を提供することもできます。これには、信頼できるコンテンツの証明書やデータ資産の保守や非推奨の通知などが含まれます。
一般のユーザーは、データがデータソースのどこに存在するのかを知る必要はありませんが、実世界でそのデータが何を意味するのかを理解する必要があります。たとえば、アナリストやコンテンツの利用者は多くの場合、データの出所を確認する必要があります (リネージ分析とも呼ばれます)。また、データセットが変更された場合、データエンジニアやデータスチュワードは、管理する表やスキーマに関連付けられているダウンストリーム資産に対する影響を分析する必要があります。データカタログと BI プラットフォームを結合することで、これらすべてのタスクを効率化でき、利用指標を提供して、最も利用頻度の高いデータソースやダッシュボードを素早く特定できるようになります。
データカタログの必要性にかかわらず、セマンティックガバナンスの分野には、メタデータガバナンスを超える機会が存在するとされています。セマンティクスは、同義語のマッピングによって、「注文数」と「数量」といったコマンドを関連付けるなど、データのコンテキストだけでなく、分析アクションの目的の関連付けを可能とします。これにより、あらゆるデータワーカーがデータを操作して、迅速に新しいインサイトを得るための新たな手段がもたらされます。その 1 つは、「最大、最小、平均をハイライトする」などの複数のクエリが関与するレイヤーを BI プラットフォームが理解できる、自然言語による操作を通じて行う方法です。
これらのテクノロジーやプロセスが統合され続けるにつれ、データキュレーションやセマンティクスによって、他の分析操作を実現するより強力な基盤が提供されます。これによって、クリーニングやダウンストリーム分析といった、データエコシステムのより多くの異種コンポーネントが統合され、表、結合、データモデルに対して、より強化された機械的に生成される推奨事項を提供することができるようになります。最終的には、データキュレーションの進化によって、従業員は、分析の際にデータに関する質問を単に行うのではなく、ビジネスに関する質問を行えるようになります。