如何找到免费公共数据集的最佳来源
Jacob Olsufka 分享了如何为下一个数据可视化项目找到完美数据集的技巧。
数据来源 1:从新闻网站和各大媒体中查找数据
如果您在寻找各种各样的话题,新闻网站的数据是非常有用的。通常您可以将它们下载为 .CSV 文件,并将它连接到 Tableau 等软件。
- FiveThirtyEight - 在体育和政治方面拥有超过 100 个数据集的宝库。示例:疯狂三月预测、政治民意调查、单身女郎秀等。
- The Pudding - 这个数据新闻网站旨在通过视觉文章解释热议的文化活动,数据来源于原始数据集和初步研究。他们的 GitHub 是流行文化数据的中心。示例:女士裤袋与男士裤袋的比较、火星上的天气状况等。
- Buzzfeed - 如果您了解 Buzzfeed,您就知道他们的新闻网站涵盖了政治、体育和时事等各种主题。他们在 GitHub 上也有丰富的数据集列表。示例:特朗普的推文、每个国情咨文的文本等。
- 华盛顿邮报 - 华盛顿邮报是一个备受推崇的新闻来源,他们的开放数据集列表包含 NCAA 财务和交通数据等主题。示例:校园枪击案、警察枪击案、NFL 逮捕等。
数据来源 2:查看社区领导的项目
Tableau 社区在激情和分析能力方面无与伦比,因此对于寻找用于分析的整洁数据源来说,它是一个自然的起点。
- Viz for Social Good - 一个将社区与非营利组织联系起来的黑客马拉松式项目。示例:倡导关注非洲没有父亲的男孩,提高对儿童难民的关注度,支持黑人男性企业家。
- Makeover Monday - 每周一次的社交数据项目,旨在围绕改进数据可视化展开讨论。每周日,该团队都会发布一个链接,点此链接可以查看一幅可视化作品和一个数据集。您面临的挑战是以自己的创作方式创建更好的可视化版本。他们的每周数据集是多种多样的,并可以在网站上重复使用,因此它是搜索整洁数据的一个很好的起点。示例:每个州的风能、最低工资、NHL 出勤情况。
- Sports Viz Sunday - 由社区领导的项目,旨在创建、分享和推广来自体育界的可视化。Sports Viz Sunday 每月都会根据热门体育主题举办挑战活动,定期分享体育可视化世界的最新动态,并提供各种体育领域的丰富数据集。示例:世界杯、大师赛、一级方程式赛车。
- Iron Quest - 一个旨在帮助人们准备 Iron Viz 资格赛的项目,让您有机会练习寻找自己想要的数据集。
数据来源 3:使用您个人的经过量化的数据
如果您四处浏览但仍然找不到任何感兴趣的内容,则始终可以选择自行收集数据。例如,有人收集了女儿前四个月的睡眠模式,并对其进行了可视化。
- Twitter 数据 - Twitter 有一个 API,可以让您获取关于井号标签、关键字或帐户的数据。以下是有关如何在 Tableau 中直接连接到 Twitter 数据的指南。如果您更喜欢使用 API,则可以进行查询来获取 JSON 数据,这是 Tableau 中支持的数据类型。这里是完整的 API 文档。可视化示例:第 53 届超级碗的观众动态。
- Netflix 数据 - 访问 netflix.com/viewingactivity 下载您的观看数据。可视化示例:我创建了一个仪表板,可以比较人们的喜爱程度,并可视化 Netflix 的观看活动随时间的变化。
- Spotify 流数据 - 您知道吗?您可以从 Spotify 请求您的个人收听数据 。 如果您能熟练使用 API,则可以使用 Spotify Web API 直接从 Spotify 数据目录中获取有关音乐艺人、专辑和曲目的数据。
数据来源 4:自行从 Web 抓取数据
有时我会在网站上找到我非常想引入 Tableau 并深入探索的数据,但我不想手动复制和粘贴。进入 Web 抓取。Google 表格具有内置函数 (IMPORTHTML),用于从 HTML 页面中的表或列表导入数据。Corey Jones 写了一篇博客文章,解释了他如何使用这项功能并自动处理这一进程,使它每天都能运行。Skyler Johnson 使用类似的方法在此可视化中跟踪 Instagram 关注者的数量随时间的变化情况。
以下是其他一些公共数据网站:
整理您自己喜欢的公共数据源的一般技巧
这些是您可以找到数据的众多位置中的一部分,但是什么让一组数据对您来说是“完美”的呢? 在我看来,查找和准备数据集的过程,是任何数据项目中最能培养技能的环节之一。下面是一些想法和建议:
- 如果您对某个话题充满热情,那么请通过数据可视化进行探索。您会发现自己更有可能投入到对这些话题的深入分析中去,并且您将了解其中的细微差别,从而解开隐藏的故事。例如,在我的第 53 届超级碗的观众动态项目中,我学会了如何使用 nflscrapR 包编写基本的 R 代码,从实况报道数据中提取每个举动后的获胜概率。为了获取星球大战 - 屏幕时间分析项目的屏幕时间数据,我使用 Python 脚本将 JSON 格式的数据解析为我需要用于分析的状态。这特别有用,因为现在我能够在当前的角色中使用 Python 进行分析。有疑问时,请追随您的热情。
- 将混乱的数据视为探索新工具的机会。混乱的数据并不一定是障碍,还有可能是一个机会。提高编码、数据抓取、数据准备或任务自动化的能力可能会很有趣。此外,为您的工作简历增加技能也会带来额外的好处。
- 创建独一无二的数据集。虽然现成的数据通常很方便,但是创意可能会让您追求或创建合适的数据集。创建数据集可以提供很好的学习体验,并且可以为可视化提供独特的故事。
- 列出可能的创意和项目。我在手机中记录了大量我想到的创意。其中一些可能没有任何意义,但我发现,想到的创意越多,就越容易激发查找数据集的积极性。
有大量数据等待着您去发现!如果您很难找到启发灵感的数据,希望这篇文章能够为您提供一个良好的起点。既然您已经拥有了数据,为什么不创建 Tableau Public 个人资料来开始可视化并共享您的作品?还在等什么?
相关故事
Subscribe to our blog
在您的收件箱中获取最新的 Tableau 更新。