관리되는 데이터 큐레이션으로 데이터와 비즈니스 간의 격차가 해소됩니다.
데이터 원본이 더 복잡해지고, 다양해지고, 수가 늘어남에 따라, 데이터 관리는 이제 최신 BI 배포에서 한층 더 필수적인 요소가 되었습니다. 더 많은 인력이 의사 결정을 추진하는 데 데이터를 사용함에 따라, 조직은 데이터의 정확성을 보장하고 데이터가 분석에 사용될 수 있도록 해야 합니다.
조직은 이렇게 광범위한 데이터 액세스에 따른 데이터 관리 및 거버넌스 문제를 해결하기 위해 데이터 큐레이션을 수행해 왔습니다. 데이터 큐레이션은 조직이 상이한 데이터를 수집, 정리, 정의 및 조정하는 방식을 모두 아우릅니다. 이 과정을 통해 데이터와 실제 응용 간의 격차를 메울 수 있습니다.
조직은 팀과 조직 전체에 존재하는 모호성을 제거하기 위해, 데이터 분석을 지원하는 분석 도구와 데이터 정의를 통합하는 기술에 이미 수백만 달러를 지출하고 있습니다. 이에 따라, 데이터 큐레이션 도구 및 프로세스(데이터 카탈로그 및 의미론적 거버넌스 등)는 데이터를 비즈니스 컨텍스트에 연결하는 BI 플랫폼과 융합되고 있습니다.
데이터 카탈로그는 데이터 원본 및 일반 데이터 정의의 엔터프라이즈 비즈니스 용어집으로 활용됩니다. 데이터 엔지니어 및 데이터 관리자와 같은 주제 전문가는 데이터 원본 및 필드에 설명과 정의를 추가하고, 더 원활한 검색을 위해 태그를 지정할 수 있으며, 유용한 데이터 품질 지표까지도 추가할 수 있습니다. 여기에는 신뢰할 수 있는 콘텐츠의 인증 또는 데이터 자산의 유지 관리 또는 사용 중단에 대한 알림 등이 포함됩니다.
일반 사용자는 데이터가 원본의 어디에 위치하는지 알 필요는 없지만, 그 데이터가 실제로 무엇을 의미하는지는 반드시 이해할 필요가 있습니다. 예를 들어, 콘텐츠 분석가 및 이용자는 종종 데이터 출처를 검증(계통 분석이라고도 함)해야 합니다. 또한 데이터 집합이 변경될 경우, 데이터 엔지니어 및 데이터 관리자는 자신들이 관리하는 테이블 또는 스키마에 연결되어 있는 자산에 미치는 다운스트림 영향을 분석해야 합니다. 데이터 카탈로그와 BI 플랫폼을 결합하면 이러한 모든 작업이 간소화되고, 가장 자주 사용되는 데이터 원본과 대시보드를 신속하게 식별해 주는 사용 메트릭을 얻을 수 있습니다.
데이터 카탈로그가 필수적인 만큼, 의미론적 거버넌스 영역에도 메타데이터 거버넌스를 뛰어넘는 더 큰 가치가 있습니다. 의미 체계는 데이터의 컨텍스트뿐만 아니라 '주문 규모'와 '수량' 같은 명령들을 이어주는 동의어 매핑과 같이 분석 작업의 의도에 맞게 연결하는 데 도움이 됩니다. 이를 통해, 모든 범위의 데이터 작업자가 데이터와 상호 작용하여 신속하게 새로운 인사이트에 도달할 수 있는 새로운 방법이 제공됩니다. 그중 한 가지 방법은 자연어와의 상호 작용을 사용한 것으로, 이를 통해 BI 플랫폼이 '최고, 최저, 평균 하이라이트'와 같은 다중 쿼리가 포함된 계층을 이해하게 됩니다.
이러한 기술과 프로세스가 계속해서 통합되면서, 데이터 큐레이션 및 의미 체계는 더욱 강력한 분석 환경 기반을 제공할 것입니다. 이에 따라, 정리 및 다운스트림 분석과 같은 보다 이질적인 데이터 환경 구성 요소를 통합하고, 테이블, 조인 및 데이터 모델에 대한 더 강력한 시스템 생성 권장 사항을 제공할 수 있습니다. 궁극적으로 데이터 큐레이션의 발전에 따라 직원들의 역량이 강화되어 직원들은 분석 중에 자신의 데이터에 대한 질문을 넘어 자신의 비즈니스에 대해 질문할 수 있게 됩니다.