Daten sind heute überall. Das ist vermutlich nichts Neues für Sie – schließlich begegnen uns Daten tagtäglich in den Nachrichten und werden als Berufsfeld immer wichtiger. Auch die wachsende Bedeutung von Datenkompetenzen auf dem Arbeitsmarkt ist schwerlich zu übersehen. Doch Daten sind nicht nur für große Unternehmen relevant, und für Analysezwecke müssen Sie keineswegs eigene Daten erheben. Dafür gibt es nämlich jede Menge öffentlicher Datensätze!
Wenn Sie lernen möchten, wie Sie Daten analysieren und Datenvisualisierungen erstellen können, oder einfach nur Ihre Datenkompetenz ausbauen möchten, sind solche öffentlich zugänglichen Datensätze ideal für den Einstieg. Wir haben einige nützliche öffentliche Datensätze zusammengestellt, die Sie sofort analysieren können. Falls Sie Hilfe bei der Formatierung Ihrer Ergebnisse benötigen, werden Sie möglicherweise in unseren Datenvisualisierungsblogs fündig. Außerdem haben wir einige besonders gelungene Visualisierungsbeispiele, die als Anregung dienen können.
1. Google Trends
Kuratiert von: Google
Beispieldatensatz: Suchergebnisse für „Cupcake“
Dies ist einer der umfangreichsten und interessantesten Datensätze, die öffentlich zur Analyse bereitstehen. Die Suchmaschine von Google erfasst Daten, aus denen hervorgeht, wer wann wonach gesucht hat. Entsprechende Statistiken zur Suchhäufigkeit können Sie für nahezu jeden Suchbegriff seit 2004 einsehen. Geben Sie dazu einfach einen oder mehrere Suchbegriffe ein und klicken Sie auf die Download-Schaltfläche. Die heruntergeladenen Daten können Sie dann außerhalb der Google Trends-Website analysieren.
Mithilfe verschiedener Filter lassen sich Trends nach Ort (weltweit oder länderspezifisch), Zeitspanne, Kategorie und sogar Suchart (Web-, Bilder- und YouTube-Suche) untersuchen. Auf der Google Trends-Startseite sehen Sie auf einen Blick, welche Themen gerade beliebt sind und in welche Richtung die Tendenz geht. Google stellt auf dieser Seite auch mehrere interessante Trendbeispiele als Datenvisualisierung dar.
Falls Sie sich für weitere Google-Daten interessieren, werden Sie möglicherweise in Google Finanzen, Google Public Data oder Google Scholar fündig.
2. National Climatic Data Center (NCDC)
Kuratiert von: National Centers for Environmental Information (NCEI; zuvor NOAA)
Beispieldatensatz: Local Climatological Data (LCD)
Wenn Sie ein Faible für Meteorologie und Klimatologie haben, dann sind die Daten des früheren US-Wetterdatenarchivs National Climatic Data Center (NCDC) ein wahres Eldorado für Sie. Die Behörde firmiert neuerdings unter dem Namen National Centers for Environmental Information (NCEI), seitdem sie mit dem Datenzentrum der Ozeanografiebehörde National Oceanic and Atmospheric Administration (NOAA) unter einem Dach zusammengeführt wurde.
Im größten Umweltdatenarchiv der Welt finden Sie Klima- und Wetterdatensätze aus allen Teilen der USA – eine gewaltige Ressource für metereologische, ozeanografische, klimatische, atmosphärische und geophysikalische Daten aller Art.
3. Global Health Observatory-Daten
Kuratiert von: Weltgesundheitsorganisation (WHO)
Beispieldatensatz: Allgemeiner Zugang zu reproduktiver Gesundheit
Die Weltgesundheitsorganisation (WHO) hat sich zum Ziel gesetzt, die globale Verfügbarkeit von Gesundheitsdaten zu verbessern. Daher veröffentlicht sie ihre weltweiten Daten im Global Health Observatory (GHO). Das GHO dient als Portal, über das wichtige Informationen und Themen mit Gesundheitsbezug abgerufen und analysiert werden können.
Die verschiedenen Datensätze sind nach Themen kategorisiert, darunter Sterblichkeit, Gesundheitssysteme, ansteckende und nicht ansteckende Krankheiten, Arzneimittel und Impfstoffe sowie Gesundheitsrisiken. Die Statistiken der WHO sind die Quelle schlechthin für globale Gesundheitsdaten. Sie dienen u. a. auch den Seuchenkontrollbehörden verschiedener Länder und Organisationen wie dem Europäischen Zentrum für die Prävention und die Kontrolle von Krankheiten (ECDC) als Datengrundlage.
4. Data.gov.sg
Kuratiert von: Regierung Singapurs
Beispieldatensatz: Einwohner Singapurs nach Altersgruppe, ethnischer Zugehörigkeit und Geschlecht, Ende Juni, Jahresdaten (2017)
Gute Websites mit Regierungsstatistiken finden sich im Internet zuhauf. Die meisten davon halten eine Fülle an nützlichen Daten und Informationen bereit. Eine der bekanntesten amtlichen Statistikwebsites ist die der USA unter data.gov, aber auch Deutschland und Österreich haben Entsprechendes zu bieten. In all diesen Quellen stehen jede Menge Daten für große Bevölkerungszahlen zur Verfügung. Warum also ausgerechnet Singapur?
Nun, die Statistikwebsite der singapurischen Regierung weiß grafisch einfach besonders zu überzeugen. Schon auf der Startseite finden sich lauter kleine Visualisierungen, die Aufschluss über den dargestellten Datensatz geben. Eine wesentliche Aufgabe einer Datenvisualisierung besteht darin, Informationen nicht nur genau und in relevanter Form wiederzugeben, sondern auch ästhetisch ansprechend darzustellen. Die meisten amtlichen Statistikwebsites sind eher nüchtern und einfach gehalten, was für eine leicht verständliche Vermittlung der Daten auch völlig ausreicht. Singapur jedoch lockert seine Daten mit besonders schön gestalteten Visualisierungen und farbigen Akzenten auf. Besonders praktisch: Unter jedem Datensatz werden interessierte Benutzer auf ähnliche Datensätze hingewiesen.
5. Earthdata
Kuratiert von: NASA
Beispieldatensatz: Atmosphärische Elektrizität (Blitze)
Earthdata gehört zum Programm Earth Science Data Systems (ESDS) der NASA, das wiederum Teil des Earth Observing System Data and Information System (EOSDIS) ist. Das EOSDIS dient der Verarbeitung und Verbreitung von Geodaten, die von Erdbeobachtungssatelliten, Flugzeugen und aus Feldmessungen stammen.
Über Earthdata hat die Öffentlichkeit Zugriff auf Daten, Neuigkeiten und ereignisbezogene Informationen der NASA. Darunter sind Daten zur Erdatmosphäre, Sonneneinstrahlung, Kryosphäre (Polarklima-/Dauerfrostzonen) und Landfläche (Erdanziehungskraft, Geomagnetismus, Tektonik) sowie zu den Ozeanen und zu vom Menschen beeinflussten Umgebungen.
6. Amazon Web Services Open Data Registry
Kuratiert von: Amazon
Beispieldatensatz: 1000-Genome-Projekt
Immer mehr Unternehmen stellen ihre Daten der Öffentlichkeit zur Verfügung. Dazu gehört auch Amazon, das ein Verzeichnis erstellt hat, über welches verschiedene Datensätze abgerufen und verbreitet werden können. Dieses Verzeichnis unterstützt über 50 öffentliche Datensätze – die Palette reicht von Akten der US-Bundessteuerbehörde IRS über Satellitenaufnahmen der NASA und DNA-Sequenzen bis hin zu Web-Crawling-Daten. Die Datensätze enthalten auch Anwendungsbeispiele, die zeigen, wie andere Organisationen und Gruppen die jeweiligen Daten genutzt haben.
7. Pew Internet
Kuratiert von: Pew Research Center
Beispieldatensatz: Teenager, soziale Netzwerke und Technologie 2018
Das Meinungsforschungsinstitut Pew Research Center hat es sich zur Aufgabe gemacht, Daten aus aller Welt zu erheben und zu analysieren. Diese Daten betreffen alle möglichen Themenbereiche: Politik, soziale Netzwerke, Journalismus, Wirtschaft, Online-Datenschutz, Religion, demografische Entwicklungen und vieles mehr. Pew betreibt unabhängige, unparteiische Forschungs- und Analysearbeit und stellt darüber hinaus seine Rohdaten öffentlich bereit. Der Datenzugriff setzt lediglich eine kurze Registrierung auf der Website und die Angabe von Pew Research Center als Datenquelle voraus, wobei Pew jede Haftung für abweichende Rückschlüsse aus den Daten ausschließt.
In gewisser Weise ist die öffentliche Bereitstellung von Daten ein weiteres Forschungsprojekt von Pew, denn während das Institut natürlich über die interne Verwendung der Daten zu Meinungsforschungszwecken Bescheid weiß, möchte es auch wissen, was andere mit denselben Daten anstellen. Die Nutzung der Daten ist mit einer Anforderung verbunden: Wenn Sie vorhaben, auf der Basis abgerufener Daten etwas zu veröffentlichen, kontaktieren Sie Pew bitte per E-Mail.