数据无所不在。现在,您可能已经从持续不断和随处可见的新闻报道中得知,能够不断扩展自己的专业领域并掌握数据技能的人才在就业市场越来越抢手。然而,数据并非大公司的专利,您也无需为自己的分析收集数据。因为您可以使用大量的公共数据集。
无论您是想学习如何分析数据,想创建数据可视化,还是仅仅希望提升自己的数据素养,公共数据集都是一个理想的起点。以下是一些很好的公共数据集,您现在就可以免费分析它们。如果在梳理自己的发现时需要帮助,您可以参考我们在数据可视化博客中发布的专题文章,也可以从我们提供的最佳数据可视化示例中汲取灵感。
1.Google Trends
整理者:Google
示例数据集:“Cupcake”搜索结果
在可供您分析的公共数据集中,这是覆盖面最广,也最有趣的数据集之一。Google 利用其巨大的搜索引擎来收集搜索词数据,向我们显示人们在什么时间搜索什么内容。您可以探索几乎任何搜索词 2004 年以来的搜索量统计数据。输入任何搜索词,或者输入一组搜索词,然后单击下载按钮即可在 Trends 网站外分析相关数据。
您可以使用多种筛选器来根据不同的条件缩小趋势范围,例如地点(全球或按国家/地区)、各种时间范围、类别,甚至是具体的搜索类型(网络、图像及 YouTube 搜索结果)。您可以在 Trends 主页轻松了解当前的热门主题以及搜索量正在蹿升的主题。Google 还使用数据可视化在该主页上突出显示了几种有趣的趋势示例。
如果有兴趣了解更多 Google 数据,请查看 Google 财经、Google Public Data 和 Google 学术搜索。
2.美国国家气候数据中心
整理者:美国国家环境信息中心(前身为 NOAA)
示例数据集:地方气候数据 (LCD)
如果天气和气候科学是您关注的领域,美国国家气候数据中心可以为您提供很难在其他地方找到的详细数据。经过一个形象重塑工程后,美国国家海洋和大气管理局 (NOAA) 的数据中心合并成了美国国家环境信息中心 (NCEI)。
这里保存着美国各地的大量气候和天气数据集,规模全球第一。这里有大量的天气数据资源,涵盖各种类别,包括气象数据、海洋数据、气候数据、大气数据和地球物理数据。
3.全球卫生观察站数据
整理者:世界卫生组织 (WHO)
示例数据集:普遍享有生殖健康
在世界各地提供更好的健康信息是世界卫生组织的核心目标,为此,该组织通过全球卫生观察站 (GHO) 公开发布他们的全球卫生数据。通过 GHO 这个门户,我们可以了解和分析卫生形势和重大课题。
各种数据集按主题(例如死亡率、卫生系统、传染病和非传染病、药物和疫苗、健康风险等)进行归类。WHO 的卫生统计数据是最佳的全球卫生信息来源,美国疾病控制与预防中心也会使用这些统计数据。
4.Data.gov.sg
整理者:新加坡政府
示例数据集:新加坡各年龄段、民族和性别的居民数据,6 月底,年度 (2017)
事实上,您可以在互联网上找到很多不错的政府数据网站。此类网站大都包含极为丰富的数据和信息。最有名的网站之一是美国的 data.gov,英国和澳大利亚也都有非常棒的网站。网站如此之多,人口样本如此之大,我们可以访问的数据自然多得超乎想象。为什么是新加坡?
坦率地讲,新加坡的政府数据网站让人赏心悦目。该网站的主页通过很多小型可视化来讲述关于每个数据集的故事。在进行数据可视化时,我们不仅要确保可视化作品能够以恰当的形式展示准确的信息,还要确保它有吸引力,能够激发兴趣。大多数政府数据网站都具有实用和简单的特点,能够以易于理解的方式呈现数据。新加披政府的网站却更为鲜活,因为它包含多姿多彩的可视化,浓淡有秩的图表;每个数据集的底部还有“类似数据集”部分,鼓励读者进行探索。
5.Earthdata
整理者:NASA
示例数据集:大气电学(闪电)
Earthdata 是 NASA 地球科学数据系统计划的一部分,具体归属于地球观测系统数据和信息系统 (EOSDIS)。EOSDIS 用于处理和发布来自地球观测卫星、飞机以及现场测量的地球科学数据。
通过 Earthdata,公众可以查看 NASA 的数据、新闻和活动信息。它涵盖来自多种测量对象的数据,例如地球大气、太阳辐射、冰冻圈(北极圈/冰冻地带)、海洋、地表(重力、地磁、板块)以及人类环境。
6.Amazon Web Services Open Data Registry
整理者:Amazon
示例数据集:千人基因组计划
随着越来越多的组织向大众公开他们的数据,Amazon 创建了一个注册库来查找和共享这些组织公开的各种数据集。Amazon 的注册库支持 50 多种公共数据集,包括 IRS 档案、NASA 卫星图像、DNA 测序、网络抓取等。这些数据集还包含使用示例,向用户介绍其他组织和团体如何使用这些数据。
7.Pew Internet
整理者:Pew Research Center(皮尤研究中心)
示例数据集:少年、社交媒体和技术 2018
Pew Research Center 的宗旨是收集和分析来自全世界的数据。他们探讨各种主题,例如政治、社交媒体、新闻、经济、在线隐私、宗教和人口统计学趋势。他们一方面从事无党派、无倾向的研究和分析,一方面向大众提供他们的原始数据。只需在该网站注册即可访问这些数据,使用数据时,您需要注明数据来源于 Pew Research Center,并声明 Pew 不对其他数据结论承担责任。
从某种意义上说,让人们能够访问数据也是 Pew 的一个研究项目。他们已经掌握了关于自己如何在研究中使用这些数据的全面信息,他们也想了解其他人如何使用他们的数据。他们有一个请求 — 如果您通过获得的数据发表了任何内容,他们希望您能够通过电子邮件联系他们。