Tableau : Pouvez-vous expliquer en quelques mots ce que vous faites au Health Media Collaboratory ?
Glen Szczypka, directeur adjoint du Health Media Collaboratory : Nous avons pour mission d'utiliser les données pour l'intérêt public. Depuis les dix dernières années, avec l'arrivée d'Internet et des médias sociaux, nous sommes presque en permanence en contact avec des écrans.
Nous sommes submergés par les données qui nous sont transmises. Tous ces messages peuvent nous amener à prendre de très mauvaises décisions pour notre santé. Nous voulons donc étudier et exploiter ces données afin d'améliorer les habitudes de tous.
Tableau : Que faut-il garder à l'esprit lorsque l'on commence à analyser des données sociales ? Avez-vous des conseils pour l'analyse de données sociales dans Tableau ?
Glen Szczypka : Vous devez tout d'abord comprendre que les données sociales sont des données « sales ». Ce n'est pas parce que vous avez utilisé un mot-clé que vous pouvez supposer que la question que vous posez se retrouve dans un Tweet.
Vous devez confirmer que le Tweet que vous analysez correspond aux pratiques que vous essayez d'étudier. Vous devez donc réellement nettoyer vos données de médias sociaux avant même de les importer dans Tableau.
Vous pouvez obtenir environ quatre sources d'informations dans le contenu du Tweet. Mais le Tweet est également associé à 20 à 25 types de métadonnées différents.
Tableau gère très bien les Tweets. Vous obtenez des données de longitude et de latitude. Tableau fonctionne parfaitement bien avec ces données. Vous pouvez aisément représenter l'emplacement géographique des Tweets avec des cercles de cluster. Cela fonctionne très bien avec les variables de métadonnées associées aux Tweets.
Tableau : Quels types de données étudiez-vous ?
Glen Szczypka : Nous recueillons des données à partir d'un éventail de plates-formes de médias sociaux : Tumblr, Twitter, Facebook, YouTube et Wordpress. Nous intégrerons bientôt Foursquare. Foursquare repose sur le principe de la géolocalisation ; nous sommes donc ravis de travailler avec cette plate-forme. L'environnement des données sociales évolue constamment. De nouvelles plates-formes sont régulièrement créées. Dès qu'elles deviennent disponibles, nous essayons d'y recueillir des données.
Tableau : Comment utilisez-vous Tableau avec ces données sociales ?
Glen Szczypka : Nombre de nos sponsors, par exemple le CDC (Centre pour le contrôle et la prévention des maladies) ou le National Cancer Institute (Institut national du cancer), sont en mesure de consulter les graphiques. Ils veulent obtenir des réponses rapides. Ils ne tiennent pas à lire un rapport de 20 ou 30 pages. Ils souhaitent uniquement voir ce graphique et être capables de le comprendre grâce à quelques données clés.
Nombre de nos sponsors, par exemple le CDC (Centre pour le contrôle et la prévention des maladies) ou le National Cancer Institute (Institut national du cancer), sont en mesure de consulter les graphiques. Ils veulent obtenir des réponses rapides. Ils ne tiennent pas à lire un rapport de 20 ou 30 pages. Ils souhaitent uniquement voir ce graphique et être capables de le comprendre grâce à quelques données clés.
Tableau : Pouvez-vous nous donner un exemple du type d'informations exploitables que vous pouvez obtenir en visualisant des données sociales ?
Glen Szczypka : Nous analysons actuellement les Tweets de personnes qui parlent d'arrêter de fumer. Nous avons considéré les Tweets publiés pendant une période d'une année et les avons inclus dans un histogramme. Nous pouvions voir les pics de fréquence.
Ainsi, nous pouvons dire aux organisations de contrôle du tabagisme « Il est judicieux de communiquer auprès de ces personnes à telle période ». Ils peuvent utiliser leurs ressources plus efficacement en examinant les pratiques relayées par les utilisateurs de Twitter.
Tableau : Que vous apporte la visualisation de données sociales ?
Glen Szczypka : Elle permet de dégager des informations exploitables. Lorsque nous consultons un graphique, nous obtenons une réponse immédiate : grâce à 1,7 million de Tweets inclus dans un histogramme et classés par semaine, nous savons quand interviennent les pics de fréquence. La réponse nous saute aux yeux.
J'aime que les choses soient joliment présentées. Je pense que c'est important. Cela peut paraître superficiel, mais je pense que la présentation des données joue réellement un rôle.