混乱数据正在拖累您:如何解决常见数据准备问题
如果曾经进行过数据分析,您就会明白,如果在深入挖掘数据时发现数据“不干净”—结构不佳、不准确或者不完整,您会非常苦恼。您受困于在 Excel 中修复数据或编写复杂的计算,甚至无法对简单的问题作出解答。数据准备是分析之前准备数据的过程,包括数据发现、数据转换和数据清理任务 - 它是分析工作流的关键部分。
即使是不直接执行数据准备任务的人,也会感受到混乱数据的影响。要从不相互联接的数据中获得可行性见解,需要花费大量的时间和精力,导致临时分析效率低下、组织数据受信任程度降低。这些缓慢的流程最终会导致错失商机并损失收入。事实上,Gartner 的研究表明“糟糕的数据质量会使中众多组织每年平均损失 970 万美元”。1
为何会出现混乱数据
如今,企业纷纷采取措施,通过建立数据目录和术语表来解决混乱数据这一问题。但即使采取了这些做法,某些混乱数据仍有可能渗透到日常运营中。混乱数据的常见起因包括:
1.人为错误
据 Experian 称,这是造成混乱数据的最常见原因。数据输入过程中的多种因素会对后期分析这些数据的人带来挑战,这包括数据输入方法的差异,员工在电子表格中手动输入的值,甚至是简单的拼写错误。
2.不同的系统
组织通常将数据存储在采用不同结构、要求和聚合的多个不同系统中。当需要整合这些数据时,分析师就要应对字段重复/缺失或者标签不一致的问题。字段或值也可能具有相同的含义,但在不同系统中使用了不同的名称或值。
3.变化的需求
随着业务的发展,数据管理员和工程师需要对数据进行更改 - 根据需要更改其粒度、弃用某些字段或引入新字段。分析人员往往不知道这些更改,直到他们将数据导入自助式 BI 或数据准备工具中。
4 种常见的数据准备问题及其解决方案
问题: 死板、耗时的流程跟不上需求
分析师报告称,他们的大部分工作并不是在进行分析,而是在清理和重新组织数据。这些工作可以通过 ETL 过程,在自助式数据准备工具或电子表格工具(例如 Microsoft Excel)中完成。每次接收到新数据时,分析人员都需要重复手动数据准备任务来调整结构并清理数据以进行分析,最终导致资源浪费并增加人为错误风险。
不仅混乱数据令人失望,分析师和业务用户甚至可能难以访问他们所需的数据。传统上,数据准备离不开 IT - 只有某些团队才具有准备新数据源并将其置入集中式数据仓库的能力。不具备这种能力的人员只能在 Excel 等程序中进行数据准备,或者等待其他团队代为完成这些工作。
解决方案: 使用适当的工具开发敏捷过程以便提供支持
采用自助式数据准备:许多组织正在采用自助式数据准备解决方案来进行探索和原型制作。自助式数据准备工具将权力交给最为了解数据的人员,普及了数据准备过程,减轻了 IT 的负担。
自助式数据准备工具的附加价值在于,分析师可以自己执行临时数据清理任务,而不必排队等候
改善相关流程,使其逐渐采用敏捷的迭代式方法:每个组织都有特定的需求,而“一刀切”式的数据准备方法并不存在,但是在选择自助式数据准备工具时,组织应考虑该工具能否将流程改进为迭代式的敏捷方式,而不为录入工作带来新的障碍。如果能看到数据准备步骤的影响,人们就会更愿意去准备和了解数据。Nationwide Insurance 顾问 Jason Harmer 解释说:“可视化数据准备工作让人们能够看到完整的端到端流程,并在早期发现潜在的问题,例如数据中的拼写错误、多余的空格或不正确的联接子句。这也能增强人们对最终分析的信心。”
问题: 数据准备需要对组织数据有着深入了解
在进行准备数据之前,了解数据的位置、结构、组成以及粒度详细信息(例如字段定义)至关重要。有些人把这个过程称为“数据发现”,它是数据准备的基本要素。您不会在对目的地还没有基本了解时就开始漫长的旅程,同样的逻辑也适用于数据准备。
自助式商业智能的出现使业务用户能够更轻松地进行数据发现,助其深入了解数据集的现有结构和内容。但是,由于存在信息孤岛,这些用户通常对组织的整体数据环境(包括存在的数据、数据的位置和定义方式)缺乏深入了解。例如,数据定义的混乱可能会阻碍分析或造成更糟的后果 - 导致整个公司得到不准确的分析结果。
解决方案: 为数据定义创建公司标准
通过可视化的自助式数据准备工具,分析师可以更深入地研究数据,以便了解其结构并看出表格之间的关系。分析师能够了解到数据的概况,因此可以轻松发现需要清理的意外值。虽然这项技术让数据更为清晰,但仍然需要公司中其他人的支持,才能了解字段定义等细节。
创建数据字典:在公司中实现数据定义标准化的方法之一是创建数据字典。数据字典会显示与分析相关的字段和严格基于系统的字段,可帮助分析师了解术语在每个业务应用中的用法。某能源公司项目工程师 Brian Davis 称数据字典“极具价值”。
继续迭代和创新:开发数据字典不是一件小事。数据管理员和主题专家需要致力于不断重复这一工作,随需求变更进行检查。2 如果字典过期,它实际上可能会对贵组织的数据策略造成损害。从流程一开始就应该确立沟通方式和所有权,以确定术语表的使用范围以及进行更新和完善的频率。
问题: “清理数据”是一个视角问题
对于“结构完善”数据的要素,不同的团队有不同的要求和偏好。例如,数据库管理员和数据工程师会优先考虑数据的存储和访问方式,可能会添加数据库(而不是人员)专用的列。构建专用于分析的数据仓库时,工程师会优先考虑能够解答大多数问题的核心业务指标。如果数据分析师需要的信息尚未存在于数据集中,他们可能需要调整聚合或引入外部源。这可能会导致数据中形成孤岛或数据不准确。
SCAN Health Plan 的 Tableau 开发人员 Cathy Bridges 解释说,分析师经常需要重新更新已由其他团队清理过的数据集。“引入额外的列可能是一个漫长而艰苦的过程。比方说,如果需要对比合计与细分数据,就需要复制数据源,这项工作可能很艰巨。”
解决方案: 将权力交给数据专家
自助式数据准备使分析师能够用适合其分析的方式来修整数据集,从而实现更快速的临时分析,让他们可在问题出现时立即解答。这样也减少了 IT 在每次出现意外问题时进行数据重构的负担。同时,因为其他分析师可以重复使用这些模型,还可以减少重复的工作量。如果数据集可大规模利用,将来可以将它们组合成规范数据集。
数据准备工具应该既能够解决分析师的一次性问题,又能反复利用。
问题: 数据准备孤岛的隐藏现实
高级数据准备工具可能会很复杂,这意味着这种功能通常仅限于部分高级用户。但即使分析师和业务用户无法访问数据准备工具,也不代表他们不能在其他应用程序中执行这些任务。自助式商业智能工具为所有技能水平的用户开放了数据分析功能,但为了深入了解自己的数据,这些用户仍需依靠 IT 来获得结构完善的数据。
用户不会漫长地等待数据,而会从系统中提取数据并在电子表格中进行数据准备。这样就会生成一个个用途单一的新结构化数据集,而各部门往往重复进行着这项工作,甚至根本没有意识到这一点。这一过程会导致大量的数据孤岛,它们效率低下、可扩展性差并且难以管理。
孤岛越多,对数据的解释就越多,我们就越不信任数据。
解决方案: 在数据准备过程中建立一致和协作
通过协作来对抗孤岛:来自 Business Application Research Center (BARC) 的调查研究表明,对数据准备过程最满意的公司是“使数据准备成为 IT 和业务部门之间的共享任务”的公司。
使分析师能够了解数据中的细微差别:在整个组织中采用自助式数据准备需要用户了解数据的来龙去脉。 由于这些知识历来掌握在 IT 和数据工程角色手中,因此分析师花时间去了解数据中的细微差别(包括粒度以及对数据集进行过的任何转换)尤为重要。针对问题安排定期检查或建立标准化工作流,可以让工程师共享查询和处理有效数据的最新方式,并让分析师能够更快、更有信心地准备数据。
1.Gartner,Smarter with Gartner,“How to Create a Business Case for Data Quality Improvement”(如何创建带来数据质量改进的业务案例)。2017 年 1 月 9 日,https://www.gartner.com/smarterwithgartner/how-to-create-a-business-cas…。
2.TDWI,TDWI Upside,“Five Key Elements Your Data Governance Business Glossary May Be Missing”(您的数据管控业务术语表中可能遗漏的 5 大关键要素)。2016 年 2 月 16 日,https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-e…。