GoDaddy 使用 Tableau、Alation Data Catalog 和 Hadoop 针对每天 13 TB 的数据扩展大数据管理

加强对 Hadoop 中存储的愈 13 TB 数据的管控

减少 IT 认证数据源的报告错误

优化产品开发,改善客户体验

GoDaddy 是一家国际网络托管和 Internet 域注册机构,每天为 1,700 万客户提供服务,收集 13 TB 的数据,并在 Hadoop 中进行存储和管理。现在,借助 Tableau 和 Alation,其企业数据团队加强了对数据准确性的控制,确保业务部门访问的组织化数据源已通过 GoDaddy 数据管理员认证。如今,分析师只需花费较少时间就能搜索到准确数据,从而拥有较多时间进行分析。因此,凭借数据驱动型决策,团队能够持续推动产品开发,提供更好的客户体验。

最终用户获得数据后,便能快速整合自己的基础报告。最终用户是产品和应用程序变化的最直接感受者,他们可以快速发现可能需要调整的地方。

帮助 1400+ 名 Tableau 用户获得规模化的大数据管理自助式功能

GoDaddy 有数百个数据源,分布在数十个平台之上,而且拥有超过 1400 位 Tableau 用户,因此该团队需要采用一种更好的方式来确保组织能够使用受信任的安全数据。

“我们有许多重复数据。一些计算字段没有得到记录。”Sharon Graves 回忆道。她是 GoDaddy 的企业数据拓展专员兼 Tableau Server 管理员。“从商业智能的角度来看,我们并不能确信地说‘行了,这正是我制作报告所需的数据。’”

为了实现大规模自助式服务,除了 Tableau 外,GoDaddy 的企业数据团队还采用了 Alation 数据目录,列出所有数据源并提供基于使用情况的业务上下文。

在数据管控方面,Alation 堪称 Tableau 方法的有益补充,它可让最终用户轻松发现来自多个源的数据,并深入了解数据的细微差别。Alation 通过对以下内容进行抓取和编目,以独特的自动化方式实现上述目的:组织数据、数据相关的业务语义,以及组织分析历史记录中嵌入的分析逻辑(通过 SQL 查询日志捕获)。

Tableau 和 Alation 的联合解决方案优于 GoDaddy 之前使用的 Hadoop 解决方案,后者包括 Apache Pig(用于处理和分析大型数据集的脚本平台)、Apache Spark(群集计算框架)和 Apache Hive。

Image

借助 Alation 和 Tableau,GoDaddy 的企业数据团队能够检查表格的沿袭情况,搜索多个数据源以查找某个字段,并提高可见性和控制力。

借助这个新的数据平台,GoDaddy 的多个手动进程均已实现自动化,其中包括创建自动通知,确保数据正常加载。此外,还会在处理过程中统一应用业务规则。

实际上,改进远不止这些。 Sharon 表示:“Alation 中的机器学习技术会在 GoDaddy 服务器上扫描查询日志文件并分析数据,自动捕获大部分元数据。”

数据管理员结合使用 Tableau 和 Alation 来整理 Alation 数据目录中自动清点的数据。 使用 Alation 的整理功能,管理员可以确认自动建议的业务语义,捕获数据的上下文。出于其他合规性考虑,他们可以使用标签来标记含有 PII 数据的数据集或需要通过数据使用策略进行管理的数据集。他们还可以认可或弃用数据源,确保公司所用数据的准确性,并在分析师和高级用户构建分析时提供指导。

“通过组建企业数据团队并应用这些产品,为 GoDaddy 的所有数据提供了一个集中的分析处理场所。”Sharon 解释说,“这有助于我们强化规则和管理,极大地改善了最终用户体验。”

通过组建企业数据团队并应用这些产品,为 GoDaddy 的所有数据提供了一个集中的分析处理场所。这有助于我们强化规则和管理,极大地改善了最终用户体验。

为 1700 多万客户提供优化的产品体验

GoDaddy 的企业数据团队每天需要处理 13 TB 的数据:网站流量指标、客户购买历史记录、内部统计数据等等。Sharon 回忆说,在使用新解决方案之前,这些流程非常复杂,GoDaddy 分析师访问数据时速度缓慢,让人感到非常困惑和沮丧。

“有些高级用户可能不太熟悉数据,不知道在哪里可以找到适合其分析的数据,或者虽然知道数据所在位置,但不知道如何使用这些数据来满足自己的需求。”Sharon 说

这一新平台标志着 GoDaddy 向自助式分析的转变。Sharon 表示:“通过创建自助式环境,GoDaddy 产品经理和业务用户可以利用数据实现更好的客户体验,并且可以通过识别趋势和预见问题,找到并设计满足客户需求的产品。”

由于用户可以轻松找到自己需要分析的数据,因此搜索数据耗费的时间大大减少,他们有了更多的时间用于改进流程,从而为其 1700 万客户提供更好的产品体验。

使用 Tableau 仪表板,产品经理和职能团队可识别趋势,并发现潜在问题,从而避免这些问题发生。借助触手可及的数据,他们可以深入了解网站趋势和电子邮件宣传活动,优化产品开发。

“最终用户获得数据后,便能快速整合自己的基础报告。”Sharon 解释道,“如果发现有顾客在特定环节退出流程,我们可以重新审视该流程,看看是否有更好的方法。最终用户是产品和应用程序变化的最直接感受者,他们可以快速发现可能需要调整的地方。”

通过更好的数据管控减少代价高昂的错误

在过去,若要生成分析师报告,需要从 SQL 中拉取数据,将其放入电子表格,然后通过电子邮件发送结果,因此企业数据团队几乎不了解数据的使用情况。错误难以追查,消除错误更是难上加难。

现在,GoDaddy 数据管理员使用 Alation 扫描数千个 Tableau 工作簿,并显示最频繁访问每个数据源的用户。掌握这些信息后,分析团队和业务团队可以更好地了解整个公司的数据使用情况,并且知道需要向谁寻求帮助,以获取进一步见解。这有助于减少大规模、代价高昂的错误。

Sharon 指出:“借助 Alation 和 Tableau,GoDaddy 的企业数据团队能够检查表格的沿袭情况,搜索多个数据源以查找某个字段,提高可见性和控制力。”

只需点击几下,即可查看 Tableau Server 中各种数据源的使用量,了解哪些用户将数据用在了哪些地方,并且可以搜索数百个数据源以查找特定字段。

若要深入了解 Alation 如何与 Tableau 协同实现大规模管控,请观看此网络讲座并阅读此白皮书