如何找到免费公共数据集的最佳来源

Jacob Olsufka 分享了如何为下一个数据可视化项目找到完美数据集的技巧。

分析工作之外的数据是一种很好的方法,它可以帮助您构建技能,拓宽您的创意界限,从而摆脱重复业务数据的束缚。

您是否曾想过启动数据可视化项目,但很快又陷入沉思:“我在哪里查找数据?”很多人都有这样的经历。幸运的是有许多在线的公共资源。Table Public 的资源页面上有一些示例数据,本文也列出了几个可以找到免费公共数据的地方。除此之外,这里还有一些我最喜欢的地方,可用来开始寻找有趣且整洁的数据集。

数据来源 1:从新闻网站和各大媒体中查找数据

如果您在寻找各种各样的话题,新闻网站的数据是非常有用的。通常您可以将它们下载为 .CSV 文件,并将它连接到 Tableau 等软件。

  • FiveThirtyEight - 在体育和政治方面拥有超过 100 个数据集的宝库。示例:疯狂三月预测、政治民意调查、单身女郎秀等。

    Visualization using March Madness data sets from Five ThirtyEight

    这是一个很好的示例Chris DeMartini 使用 FiveThirtyEight 的疯狂三月数据集构建了此仪表板。

  • The Pudding - 这个数据新闻网站旨在通过视觉文章解释热议的文化活动,数据来源于原始数据集和初步研究。他们的 GitHub 是流行文化数据的中心。示例:女士裤袋与男士裤袋的比较、火星上的天气状况等。
  • Buzzfeed - 如果您了解 Buzzfeed,您就知道他们的新闻网站涵盖了政治、体育和时事等各种主题。他们在 GitHub 上也有丰富的数据集列表。示例:特朗普的推文、每个国情咨文的文本等。
  • 华盛顿邮报 - 华盛顿邮报是一个备受推崇的新闻来源,他们的开放数据集列表包含 NCAA 财务和交通数据等主题。示例:校园枪击案、警察枪击案、NFL 逮捕等。

数据来源 2:查看社区领导的项目

Tableau 社区在激情和分析能力方面无与伦比,因此对于寻找用于分析的整洁数据源来说,它是一个自然的起点。

  • Viz for Social Good - 一个将社区与非营利组织联系起来的黑客马拉松式项目。示例:倡导关注非洲没有父亲的男孩,提高对儿童难民的关注度,支持黑人男性企业家。
  • Makeover Monday - 每周一次的社交数据项目,旨在围绕改进数据可视化展开讨论。每周日,该团队都会发布一个链接,点此链接可以查看一幅可视化作品和一个数据集。您面临的挑战是以自己的创作方式创建更好的可视化版本。他们的每周数据集是多种多样的,并可以在网站上重复使用,因此它是搜索整洁数据的一个很好的起点。示例:每个州的风能、最低工资、NHL 出勤情况。
  • Sports Viz Sunday - 由社区领导的项目,旨在创建、分享和推广来自体育界的可视化。Sports Viz Sunday 每月都会根据热门体育主题举办挑战活动,定期分享体育可视化世界的最新动态,并提供各种体育领域的丰富数据集。示例:世界杯、大师赛、一级方程式赛车。
  • Iron Quest - 一个旨在帮助人们准备 Iron Viz 资格赛的项目,让您有机会练习寻找自己想要的数据集。

数据来源 3:使用您个人的经过量化的数据

如果您四处浏览但仍然找不到任何感兴趣的内容,则始终可以选择自行收集数据。例如,有人收集了女儿前四个月的睡眠模式,并对其进行了可视化。

  • Twitter 数据 - Twitter 有一个 API,可以让您获取关于井号标签、关键字或帐户的数据。以下是有关如何在 Tableau 中直接连接到 Twitter 数据的指南。如果您更喜欢使用 API,则可以进行查询来获取 JSON 数据,这是 Tableau 中支持的数据类型。这里是完整的 API 文档。可视化示例:第 53 届超级碗的观众动态

    Visualization of Super Bowl LIII Peaks.

  • Netflix 数据 - 访问 netflix.com/viewingactivity 下载您的观看数据。可视化示例:我创建了一个仪表板,可以比较人们的喜爱程度,并可视化 Netflix 的观看活动随时间的变化。

    Netflix binge analysis.

  • Spotify 流数据 - 您知道吗?您可以从 Spotify 请求您的个人收听数据 。 如果您能熟练使用 API,则可以使用 Spotify Web API 直接从 Spotify 数据目录中获取有关音乐艺人、专辑和曲目的数据。

    Visualization using Spotify's API.

    Robert Janezic 使用 Spotify API 创建了这一项替代曲目分析

数据来源 4:自行从 Web 抓取数据

有时我会在网站上找到我非常想引入 Tableau 并深入探索的数据,但我不想手动复制和粘贴。进入 Web 抓取。Google 表格具有内置函数 (IMPORTHTML),用于从 HTML 页面中的表或列表导入数据。Corey Jones 写了一篇博客文章,解释了他如何使用这项功能并自动处理这一进程,使它每天都能运行。Skyler Johnson 使用类似的方法在此可视化中跟踪 Instagram 关注者的数量随时间的变化情况。

以下是其他一些公共数据网站:

整理您自己喜欢的公共数据源的一般技巧

这些是您可以找到数据的众多位置中的一部分,但是什么让一组数据对您来说是“完美”的呢? 在我看来,查找和准备数据集的过程,是任何数据项目中最能培养技能的环节之一。下面是一些想法和建议:

  1. 如果您对某个话题充满热情,那么请通过数据可视化进行探索。您会发现自己更有可能投入到对这些话题的深入分析中去,并且您将了解其中的细微差别,从而解开隐藏的故事。例如,在我的第 53 届超级碗的观众动态项目中,我学会了如何使用 nflscrapR 包编写基本的 R 代码,从实况报道数据中提取每个举动后的获胜概率。为了获取星球大战 - 屏幕时间分析项目的屏幕时间数据,我使用 Python 脚本将 JSON 格式的数据解析为我需要用于分析的状态。这特别有用,因为现在我能够在当前的角色中使用 Python 进行分析。有疑问时,请追随您的热情。
  2. 将混乱的数据视为探索新工具的机会。混乱的数据并不一定是障碍,还有可能是一个机会。提高编码、数据抓取、数据准备或任务自动化的能力可能会很有趣。此外,为您的工作简历增加技能也会带来额外的好处。
  3. 创建独一无二的数据集。虽然现成的数据通常很方便,但是创意可能会让您追求或创建合适的数据集。创建数据集可以提供很好的学习体验,并且可以为可视化提供独特的故事。
  4. 列出可能的创意和项目。我在手机中记录了大量我想到的创意。其中一些可能没有任何意义,但我发现,想到的创意越多,就越容易激发查找数据集的积极性。

有大量数据等待着您去发现!如果您很难找到启发灵感的数据,希望这篇文章能够为您提供一个良好的起点。既然您已经拥有了数据,为什么不创建 Tableau Public 个人资料来开始可视化并共享您的作品?还在等什么?