Dados desorganizados estão causando prejuízos a você: como resolver problemas comuns da preparação de dados

Se você já analisou dados, sabe como é difícil se debruçar sobre eles e descobrir que estão desorganizados, mal estruturados, repletos de imprecisões ou simplesmente incompletos. Você fica preso arrumando os dados no Excel ou escrevendo cálculos complexos muito antes de poder responder a uma pergunta simples. A preparação de dados é o processo de deixar os dados prontos para análise, incluindo tarefas de descoberta de dados, transformação e limpeza, e é uma parte crucial do fluxo de trabalho da análise.

Mesmo quem não realiza tarefas de preparação de dados diretamente acaba sentindo o impacto de dados desorganizados. O tempo e a energia necessários para partir de dados desorganizados e chegar a informações acionáveis resultam em análises ad hoc ineficientes, diminuindo a confiabilidade nos dados da organização. Estes processos lentos podem resultar em oportunidades e receitas perdidas. Na realidade, uma pesquisa da Gartner indica que o “impacto financeiro médio dos dados de baixa qualidade para as empresas é de US$ 9,7 milhões por ano”.1

Por que os dados ficam desorganizados?

Empresas estão tomando medidas para superar o desafio dos dados desorganizados estabelecendo catálogos de dados e glossários. Mas, até mesmo com essas práticas, possivelmente você ainda precisará lidar com um certo nível de desorganização nos dados em suas tarefas cotidianas. Normalmente, os dados ficam desorganizados devido a:

imagem de erro humano

1. Erro humano

De acordo com a Experian, essa é a causa mais comum para a desorganização de dados. Desde a variabilidade nas práticas de entrada de dados até à inserção manual de valores em planilhas, até mesmo um simples erro de ortografia pode ser um desafio na hora de analisar os dados.

imagem de sistemas incompatíveis

2. Sistemas incompatíveis

É comum que organizações armazenem dados em diversos sistemas incompatíveis, com estruturas, requisitos e agregações diferentes. Quando chega a hora de integrar esses dados, os analistas encontram campos duplicados ou ausentes, ou rótulos inconsistentes. Os campos ou valores também podem ter o mesmo significado, mas usarem nomes ou valores diferentes entre os sistemas.

imagem de alterações de requisitos de dados

3. Alterações de requisitos

Quando os negócios evoluem, administradores de dados e engenheiros precisam fazer alterações nos dados, seja alterando a granularidade, excluindo campos ou introduzindo novos campos. Os analistas não costumam saber dessas alterações até levarem os dados para uma ferramenta de BI de autoatendimento ou de preparação de dados.

Quatro problemas comuns da preparação de dados e como resolvê-los

01

Problema: processos inflexíveis e demorados que não conseguem acompanhar as demandas

Os analistas relatam que a maior parte da sua função não é analisar, mas limpar e reformatar dados. Isso pode acontecer com um processo de ETL, em ferramentas de preparação de dados de autoatendimento ou em ferramentas de planilhas, como o Microsoft Excel. A cada vez que novos dados são recebidos, os analistas precisam repetir as tarefas manuais de preparação de dados para ajustar a estrutura e limpar os dados para análise, gerando desperdício de recursos e aumento do risco de erro humano.

Além da frustração gerada por dados caóticos, analistas e usuários corporativos encontram dificuldades até mesmo para acessar os dados de que precisam. No modelo tradicional, a TI abrigava a preparação de dados, e apenas algumas equipes podiam preparar e incluir novas fontes de dados em um data warehouse centralizado. Quem não tinha permissão para tanto fazia sua própria preparação de dados em programas como o Excel ou esperava até que outra equipe assumisse a tarefa.
imagem do problema com um relógio e papéis


SOLUÇÃO: desenvolver processos ágeis com as ferramentas de apoio certas.

Adote o autoatendimento na preparação de dados: Muitas empresas estão adotando soluções de preparação de dados por autoatendimento para explorar e criar protótipos. A preparação de dados por autoatendimento coloca o poder nas mãos das pessoas que melhor conhecem os dados, democratizando o processo de preparação de dados e reduzindo a demanda sobre a TI.

O valor agregado por uma ferramenta de preparação de dados de autoatendimento é que todos podem realizar tarefas de limpeza de dados ad hoc por conta própria em vez de esperar em uma fila

Evolua seus processos para uma abordagem ágil e iterativa: Cada organização tem necessidades específicas, e não existe solução mágica para a preparação de dados; mas, ao selecionar uma ferramenta de preparação de dados por autoatendimento, as organizações devem avaliar como ela ajudará os processos a evoluírem para uma abordagem ágil e iterativa, em vez de criar novas barreiras. As pessoas ficam mais motivadas a preparar e a entender seus dados quando podem ver o impacto das etapas da preparação de dados. Jason Harmer, consultor da Nationwide Insurance, explicou como a preparação de dados visual permite que todos vejam o processo do início ao fim, encontrando problemas em potencial antecipadamente, como dados com erros ortográficos, espaços a mais ou cláusulas de união incorretas. Segundo ele, isso também aumenta a confiança na análise final.

02

Problema: a preparação de dados exige conhecimentos profundos sobre os dados da organização.

Antes de preparar os dados, é fundamental compreender sua localização, estrutura e composição, além de detalhes granulares, como definição de campos. Algumas pessoas se referem a esse processo como “descoberta de dados”, e é um elemento fundamental da preparação de dados. Você não começaria uma longa viagem sem uma compreensão básica do seu destino; a mesma lógica se aplica à preparação de dados.

O surgimento do BI de autoatendimento facilitou a descoberta de dados para usuários corporativos, proporcionando a eles um conhecimento aprofundado da estrutura e do conteúdo de seus conjuntos de dados. Porém, uma vez que a informação está isolada em silos, esses usuários acabam recebendo uma visão limitada do panorama dos dados de sua empresa, como quais dados existem, onde estão e como estão definidos. A confusão sobre definições de dados pode prejudicar as análises ou, pior ainda, levar a análises imprecisas por toda a empresa.
imagem do problema dois de uma lente de aumento em um calendário

Solução: padronizar as definições de dados da empresa

Com a preparação de dados visual por autoatendimento, analistas podem mergulhar mais profundamente nos dados para compreender a estrutura deles e visualizar o relacionamento entre as tabelas. Por compreenderem o perfil dos seus dados, os analistas podem encontrar com facilidade valores inesperados que precisam de limpeza. Embora essa tecnologia ajude a entender melhor os dados, as pessoas ainda precisarão do suporte de outros funcionários da empresa para compreender detalhes, como definições de campos.

Crie um dicionário de dados: Uma maneira de padronizar as definições de dados de uma empresa é criar um dicionário de dados. Um dicionário de dados ajuda os analistas a compreenderem como os termos são usados dentro de cada aplicativo do negócio, exibindo os campos relevantes para análises e marcando aqueles que são estritamente do sistema. Brian Davis, engenheiro de projetos em uma empresa do setor energético, considera dicionários de dados “inestimáveis”.

Continue a iterar e inovar: Desenvolver um dicionário de dados não é uma tarefa simples. Administradores de dados e especialistas no assunto precisam se comprometer com um processo de iteração constante, verificando sempre se os requisitos mudaram.2 Se um dicionário ficar desatualizado, ele poderá inclusive prejudicar a estratégia de dados da sua empresa. A comunicação e a propriedade devem ser integradas ao processo desde o início, para determinar onde o glossário deve ser armazenado e com que frequência ele deve ser atualizado e refinado.

Salve como favorito para ler depois

Cinco práticas recomendadas para organizar seus dados

Entenda o escopo dos seus dados e acelere o processo de preparação de dados.

Tableau Data Management

Confiança, visibilidade e governança para análises de autoatendimento escalonáveis.

03

Problema: “dados limpos” é uma questão de perspectiva

Equipes diferentes têm requisitos e preferências diferentes sobre o que consideram “dados bem estruturados”. Por exemplo, administradores de bancos de dados e engenheiros de dados priorizam o modo como os dados são armazenados e acessados, e colunas podem ser adicionadas somente para os bancos de dados utilizarem, e não os humanos. Quando um engenheiro constrói um data warehouse especificamente para análises, ele prioriza as métricas principais do negócio, que respondem à maior parte das perguntas. Se as informações que os analistas de dados precisam não estão ainda no conjunto de dados, pode ser necessário ajustar agregações ou trazer fontes externas. Isso pode levar ao isolamento dos dados em silos ou a imprecisões nos dados.

Cathy Bridges, desenvolvedora da Tableau na SCAN Health Plan, explica como analistas precisam sempre voltar e atualizar um conjunto de dados que já foi limpo por outra equipe. “Trazer colunas adicionais pode ser um processo longo e árduo. Por exemplo, se eu necessitar de uma comparação de um resultado total e agrupado, precisarei duplicar a fonte de dados, e isso pode ser trabalhoso.”


imagem do problema três de uma pessoa dizendo seis e outra dizendo nove

Solução: colocar o poder nas mãos dos especialistas nos dados.

Com a preparação de dados por autoatendimento, os analistas podem ajustar os conjuntos de dados da maneira mais adequada para suas análises, proporcionando análises ad hoc mais rápidas e possibilitando que eles respondam imediatamente às perguntas que possam aparecer. Isso também reduz a demanda sobre a TI de reestruturar os dados sempre que uma pergunta inesperada surgir. Além disso, o volume de esforços duplicados diminui, uma vez que outros analistas podem reutilizar esses modelos. Se os conjuntos de dados são valiosos de forma generalizada, você pode combiná-los em um conjunto canônico no futuro.

Uma ferramenta de preparação de dados deve ajudar a responder às perguntas pontuais dos analistas e também possibilitar repetições.

04

Problema: a realidade oculta dos silos da preparação de dados

Ferramentas avançadas de preparação de dados podem ser complexas, o que significa que esse recurso acaba ficando restrito a um número seleto de usuários avançados. Mas, mesmo que analistas e usuários corporativos não tenham acesso a ferramentas de preparação de dados, isso não significa que eles já não estejam realizando essas tarefas em outros aplicativos. Ferramentas de business intelligence de autoatendimento abriram os recursos de análise de dados para todos os níveis de usuários. Porém, para conseguirem extrair informações de seus dados, esses usuários ainda dependem da TI para terem dados bem estruturados.

Em vez de esperar dias ou meses pelos dados, os usuários extraem dados de sistemas, preparando-os em planilhas. O resultado é um conjunto de dados recém-estruturado que serve a uma finalidade única, sendo que vários departamentos muitas vezes duplicam esforços sem saber. Esse processo leva a uma série de silos de dados que não são eficientes, escalonáveis e nem governados.

Quanto mais silos houver, mais interpretações diferentes teremos para os dados, o que corrói a confiança.

grupos de pessoas do problema quatro

Solução: promover consistência e colaboração no processo da preparação de dados

Use a colaboração para combater os silos: Pesquisas do Business Application Research Center (BARC) demonstraram que as empresas mais satisfeitas com seus processos de preparação de dados foram as que “transformaram a preparação de dados em uma tarefa compartilhada entre os departamentos de TI e comercial”.

Capacite os analistas para que aprendam as nuances dos dados: Para adotar a preparação de dados por autoatendimento em uma empresa, os usuários precisam compreender todos os aspectos técnicos dos dados. Como esse conhecimento sempre foi reservado para funções de TI e engenheiros de dados, é fundamental que os analistas separem um tempo para aprender sobre as nuances dos dados, incluindo a granularidade e quaisquer transformações que possam ter sido realizadas no conjunto de dados. Agendando verificações regulares ou um fluxo de trabalho padrão para as perguntas, os engenheiros poderão compartilhar a maneira mais atualizada de consultar e trabalhar com dados válidos, enquanto os analistas poderão preparar dados com mais agilidade e segurança.

1. Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement (Defendendo a melhora na qualidade dos dados corporativos). 9 de janeiro de 2017, https://www.gartner.com/smarterwithgartner/how-to-create-a-business-cas….

2. TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing (Cinco elementos fundamentais que podem estar faltando em seu glossário de negócios de governança de dados). 16 de fevereiro de 2016, https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-e….