더티 데이터로 인한 비용 증가: 일반적인 데이터 준비 문제 해결 방법

데이터 분석을 한 번이라도 해보셨다면 데이터를 파악한 결과 '더티' 데이터, 즉 구조가 엉망이거나 많은 부분이 부정확하거나 불완전한 데이터라는 것을 발견하는 쓰라린 경험이 있으실 것입니다. Excel에 있는 데이터를 수정하거나 간단한 질문에 대답하기 위해 복잡한 계산식을 쓰느라 씨름을 하기도 합니다. 데이터 준비는 분석을 위해 데이터를 준비하는 프로세스로, 데이터 탐색, 변형 및 정리 작업을 포함하며 분석 워크플로우에서 매우 중요한 부분을 차지합니다.

데이터 준비 작업을 직접 수행하지 않는 사람들도 더티 데이터의 영향을 받습니다. 분리된 데이터로부터 실행 가능한 인사이트를 얻는 데 드는 시간과 에너지의 양이 클 경우 비효율적인 애드혹 분석과 조직 데이터에 대한 신뢰가 손상되는 결과가 나타납니다. 이러한 시간이 오래 걸리는 프로세스는 궁극적으로 기회 상실과 수익 감소를 가져옵니다. 실제로 Gartner의 연구에 따르면 "조직에서 낮은 데이터 품질이 끼치는 재정적 영향의 평균값이 매년 970만 달러에 이릅니다."1

더티 데이터가 생기는 이유

여러 기업에서 데이터 카탈로그와 용어집을 제정함으로써 더티 데이터를 극복하려는 조치를 취하고 있습니다. 그러나 이러한 노력에도 불구하고, 일상적인 운영에 존재하는 틈새를 따라 어느 정도의 더티 데이터가 스며들 확률이 큽니다. 일반적으로 다음과 같은 이유로 더티 데이터가 발생합니다.

사람의 실수 이미지

1. 사람의 실수

Experian에 따르면 이것이 더티 데이터의 가장 흔한 원인입니다. 다양한 데이터 입력 습관부터 스프레드시트에 값을 수동으로 입력하는 직원에 의한 것에 이르기까지, 간단한 철자 오류만으로도 누군가가 데이터 분석을 시작할 때 문제를 일으킬 수 있습니다.

여러 시스템의 병립 이미지

2. 이종 시스템의 병립

조직에서 구조, 요구 사항 및 집계 방법이 다른 여러 이종의 시스템에 데이터를 저장하는 일은 흔합니다. 그런데 이 데이터를 통합해야 하는 필요가 생기면, 분석가는 중복 또는 누락된 필드나 일관되지 않은 레이블을 처리해야 합니다. 같은 의미를 가지는 필드 또는 값이 시스템에 따라 다른 이름 또는 값을 가지기도 합니다.

변화하는 데이터 요구사항 이미지

3. 변화하는 요구 사항

비즈니스가 변화함에 따라, 데이터 관리자와 엔지니어는 데이터에 변경 사항을 적용해야 합니다. 세부 수준을 바꾸고, 사용하지 않는 필드를 정리하거나 필요에 따라 새 필드를 입력합니다. 분석가는 데이터를 셀프 서비스 BI 또는 데이터 준비 도구로 가져올 때까지 이러한 변경 사항을 알지 못하는 경우가 많습니다.

4가지 일반적인 데이터 준비 문제와 그 해결 방법

01

문제: 수요를 따라가지 못하는 경직되고 시간 소모적인 프로세스

분석가들이 말하기를 그들 업무의 대부분은 분석이 아니라 데이터를 정리하고 변형하는 것이라고 합니다. ETL 프로세스에서, Microsoft Excel 같은 스프레드시트 도구나 셀프 서비스 데이터 준비 도구를 사용해 작업할 때 이런 현상이 일어날 수 있습니다. 분석가는 새로운 데이터를 받을 때마다 분석을 위해 구조를 조정하고 데이터를 정리하는 수동 데이터 준비 작업을 반복해야 하고, 이는 궁극적으로 자원의 낭비와 사람의 실수를 초래할 위험의 증가로 이어집니다.

정리되지 않은 데이터가 주는 좌절감보다 더 큰 문제는 분석가와 비즈니스 사용자 모두 필요한 데이터에 액세스하기조차 힘들다는 것입니다. 지금까지, 데이터 준비는 IT 부서 내의 업무였고, 준비할 수 있는 능력과 새 데이터 원본을 중앙화된 데이터 웨어하우스로 가져오는 능력이 특정 팀에게만 있었습니다. 그럴 능력이 없는 사람들은 Excel 같은 프로그램에서 데이터 준비를 직접 수행하거나 다른 팀이 해주기를 기다립니다.
첫 번째 문제 이미지: 시계와 문서


솔루션: 적합한 도구로 지원하는 대응력이 뛰어난 프로세스 개발

셀프 서비스 데이터 준비 도입: 많은 조직에서 탐색과 프로토타입 생성에 셀프 서비스 데이터 준비 솔루션을 도입하고 있습니다. 데이터를 가장 잘 아는 사람의 손에 셀프 서비스 데이터 준비 도구를 제공하면, 데이터 준비 프로세스를 대중화할 수 있게 되어 IT 팀의 부담도 줄어들게 됩니다.

셀프 서비스 데이터 준비 도구의 부가적인 가치는 분석가가 줄 서서 기다리는 대신 애드혹 데이터 정리 작업을 스스로 할 수 있다는 것입니다.

반복적이고 민첩한 접근 방법이 되도록 프로세스를 진화: 모든 조직에는 특정 요구가 있고 데이터 준비에 있어 '어디에나 들어맞는' 접근 방식은 없습니다. 그러나 셀프 서비스 데이터 준비 도구를 선택할 때, 조직은 그 도구로 새로운 진입 장벽을 만드는 대신, 프로세스를 어떻게 반복적이고 민첩한 접근 방법이 되게 진화시킬 것인지 고려해야 합니다. 데이터 준비 단계가 어떻게 영향을 끼치는지 볼 수 있다면 사람들은 데이터를 준비하고 이해하려는 욕구가 커질 것입니다. Nationwide Insurance의 컨설턴트인 Jason Harmer는 "시각적 데이터 준비는 사람들이 전체 프로세스를 처음부터 끝까지 볼 수 있게 하므로, 데이터의 철자 오류, 불필요한 공백 또는 잘못된 조인 절 등 문제가 될만한 부분을 조기에 발견할 수 있습니다. 이에 따라 최종 분석에 대한 신뢰도 높아집니다."

02

문제: 조직 데이터에 대한 깊은 이해가 필요한 데이터 준비

데이터를 준비하기 전에, 데이터의 위치, 구조, 구성 요소 등을 필드 정의와 같은 세부 정보와 함께 잘 이해하는 것은 매우 중요합니다. '데이터 탐색'이라고도 부르는 이 프로세스는 데이터 준비의 기본 요소입니다. 가는 곳에 대한 기본적인 이해 없이 긴 여정을 시작하지 않는 것처럼, 데이터 준비에도 같은 논리가 적용됩니다.

셀프 서비스 BI의 출현은 비즈니스 사용자에게 데이터 집합의 기존 구조와 콘텐츠에 대한 더 깊은 지식을 갖게 해주어 데이터 탐색을 더 쉽게 만들어주었습니다. 그러나 정보가 격리되어 있어, 이 사용자들은 종종 어떤 데이터가 존재하는지, 어디에 있는지, 그리고 어떻게 정의되어 있는지 등 조직의 전체 데이터 상황에 대한 인사이트가 부족했습니다. 데이터 정의에 관한 혼란은 분석을 저해하고, 심지어 회사 전체에 부정확한 분석을 가져올 수도 있습니다.
두 번째 문제 이미지: 달력 위의 돋보기

솔루션: 데이터 정의에 대한 회사 표준 마련

시각적인 셀프 서비스 데이터 준비는 분석가가 데이터를 심층적으로 살펴볼 수 있게 하여 그 구조를 이해하고 테이블 간의 관계를 볼 수 있게 해줍니다. 데이터의 프로필을 이해할 수 있으므로, 분석가는 정리가 필요한 예상치 못한 값을 쉽게 포착할 수 있습니다. 이 기술이 데이터에 명료성을 가져옴에도 불구하고, 사람들은 여전히 필드 정의와 같은 세부 정보를 이해하는 데 회사 내의 다른 사람으로부터 지원을 받아야 합니다.

데이터 사전 만들기: 회사 전체에 걸쳐 데이터 정의를 표준화하는 한 가지 방법은 데이터 사전을 만드는 것입니다. 데이터 사전은, 엄격한 시스템 기반의 필드에 대비하여 분석에 관련되는 필드를 보여줌으로써, 분석가가 각각의 비즈니스 응용 프로그램 내에서 용어가 어떻게 사용되는지 이해할 수 있도록 도와줍니다. 에너지 회사의 프로젝트 엔지니어인, Brian Davis는 데이터 사전을 '너무나 귀중하다'라고 표현했습니다.

지속적인 반복과 혁신: 데이터 사전을 개발하는 것은 그렇게 쉬운 일은 아닙니다. 데이터 관리자와 해당 분야 전문가가 요구 사항이 변경될 때마다 확인하면서 진행 중인 반복 작업에 전념해야 합니다.2 사전이 최신으로 유지 되지 않으면 조직의 데이터 전략에 실제로 해가 될 수 있습니다. 사전이 어디에 있어야 하는지, 얼마나 자주 업데이트되고 재정비되어야 하는지를 결정하는 소통 경로 및 책임자가 처음부터 프로세스 내에 구축되어야 합니다.

읽어볼 만한 추가 자료

정리된 데이터를 위한 다섯 가지 모범 사례

데이터의 범위를 파악하여 데이터 준비 프로세스를 가속하십시오.

Tableau Data Management

규모에 맞는 셀프 서비스 분석을 위한 신뢰성, 가시성 및 거버넌스.

03

문제: '정리된 데이터'에 대한 다른 관점

'좋은 구조'의 데이터를 이야기할 때 팀마다 요구 사항과 선호하는 것이 각각 다릅니다. 예를 들어, 데이터베이스 관리자와 데이터 엔지니어는 데이터의 저장 방법 및 액세스 방법에 우선순위를 두어, 사용자의 용이성보다 데이터베이스에서의 활용을 중요시하여 열을 추가할 것입니다. 엔지니어가 특히 분석을 위해 데이터 웨어하우스를 구축한다면, 대부분의 질문에 대한 답을 찾을 수 있는 핵심 비즈니스 메트릭에 우선순위를 둘 것입니다. 데이터 분석가가 필요로 하는 정보가 데이터 집합에 이미 있지 않다면, 집계를 조정하거나 외부 원본에서 가져와야 할 수도 있습니다. 이로써 격리된 데이터 혹은 데이터의 부정확성이 생겨날 수 있습니다.

SCAN Health Plan의 Tableau 개발자인 Cathy Bridges는 분석가가 다른 팀이 이미 정리한 데이터 집합으로 되돌아가 업데이트해야 하는 일이 얼마나 빈번한지 설명합니다. "추가 열을 가져오는 것은 길고 고된 프로세스가 될 수도 있습니다. 예를 들어, 제가 개별 값 대비 총계가 필요하다면, 데이터 원본의 사본을 만들어야 하는데요, 매우 번거로운 일일 수 있습니다."


세 번째 문제 이미지: '6'이라고 말하는 사람과 '9'라고 말하는 사람

솔루션: 데이터 전문가의 손에 역량 제공

셀프 서비스 데이터 준비는 분석가에게 자신의 분석에 적합한 방식으로 데이터 집합을 다듬을 능력을 주어, 애드혹 분석을 더욱 신속하게 수행하고 질문이 제기될 때마다 답을 할 수 있게 해줍니다. 또한 기대하지 못한 질문이 제기될 때마다 데이터의 구조를 재구성해야 하는 IT 팀의 업무량을 줄여줍니다. 게다가 다른 분석가가 이 모델을 다시 사용할 수 있으므로 중복되는 노력의 양을 줄일 수 있습니다. 광범위한 가치가 있는 데이터 집합의 경우 미래에 사용할 정규 집합으로 결합할 수 있습니다.

데이터 준비 도구는 분석가의 일회성 질문에 대응해야 할 뿐 아니라, 반복할 수 있어야 합니다.

04

문제: 데이터 준비 사일로의 감춰진 진실

고급 데이터 준비 도구는 복잡할 수 있으므로, 사용자가 종종 일부의 파워 유저로만 제한되기도 합니다. 그러나 분석가와 비즈니스 사용자가 데이터 준비 도구에 액세스하지 못한다고 해서, 다른 응용 프로그램에서 이미 그 작업을 수행하고 있지 않다는 것은 아닙니다. 셀프 서비스 비즈니스 인텔리전스 도구를 통해 모든 수준의 사용자들이 데이터 분석 기능을 사용할 수 있게 되었지만, 이러한 사용자들은 여전히 데이터에서 인사이트를 얻기 위해 IT 팀에 의존하여 잘 구조화된 데이터를 제공받아야 합니다.

며칠 혹은 몇 달 동안 데이터를 기다리는 대신, 사용자는 시스템에서 데이터를 추출하고 그 데이터를 스프레드시트에서 준비합니다. 그 결과, 일회성 사용을 위한 새로운 구조의 데이터 집합이 생성되며, 종종 여러 부서가 모르는 사이에 동일한 작업을 중복하여 수행하게 됩니다. 이러한 프로세스는 비효율적이며, 확장 및 관리가 불가능한 데이터 사일로의 양산으로 이어집니다.

데이터 사일로가 많으면 많을수록 더 다양한 데이터 해석이 생기고 이는 불신을 초래합니다.

네 번째 문제: 여러 그룹의 사람들

솔루션: 데이터 준비 프로세스 내에 일관성과 협업 구축

협업을 통해 사일로에 맞서기: BARC(Business Application Research Center)의 설문조사에 따르면, 데이터 준비 프로세스에 가장 만족하는 회사들은 '데이터 준비를 IT와 비즈니스 부서 간의 공유 작업으로 만든' 회사들이었습니다.

분석가가 데이터에서 미묘한 차이를 알아낼 수 있도록 지원: 조직 전체에 걸쳐 셀프 서비스 데이터 준비를 도입하려면 사용자가 데이터의 입력과 출력에 대해 알아야 합니다. 기존에는 IT 및 데이터 엔지니어가 이러한 지식을 보유하고 있었지만, 이제는 분석가가 세부 수준과 데이터 집합에 일어난 모든 변환을 포함하여 데이터 내의 미묘한 차이에 대해 시간을 내어 알아보는 것은 매우 중요합니다. 정기적인 체크인 일정 설정 및 표준화된 질문 워크플로우를 통해 엔지니어는 쿼리를 실행하고 유효한 데이터와 작업하는 최신 방법을 공유할 수 있게 됩니다. 동시에 분석가는 데이터를 보다 빠르고 확실하게 준비할 수 있게 됩니다.