Meilleures pratiques pour nettoyer les données « sales » avec Tableau Prep
Les données peuvent être générées, collectées et stockées dans différents formats, et ceux-ci ne sont pas toujours adaptés à l'analyse.
La préparation consiste à nettoyer des données « sales », à organiser les données non structurées et à combiner plusieurs ensembles de données pour l'analyse. Cela implique de transformer la structure, par exemple les lignes et les colonnes, et de rectifier les types de données et les valeurs. La rapidité et l'efficacité de la préparation auront un impact direct sur le temps que vous mettrez à découvrir des informations exploitables. Il est donc important de bien comprendre la portée des données analysées et de voir les changements en temps réel pour accélérer tout le processus.
Considérez les données dans leur globalité
Avant de vous lancer, vous devez réfléchir à la manière dont les données que vous préparez seront utilisées. Une bonne compréhension du contexte vous aidera à déterminer quel ensemble de données choisir et quelle quantité intégrer à votre outil de préparation, mais aussi à mieux les structurer et les réorganiser. Voici les questions que vous devez vous poser.
Qui effectue l'analyse ?
Tenez compte des utilisateurs finaux de votre ensemble de données. Serez-vous le seul à accéder à toutes les données pour réaliser des analyses poussées, ou votre ensemble de données sera-t-il utilisé par quelqu'un ayant un rôle différent, par exemple un responsable marketing qui doit analyser les performances d'une campagne sur la base d'indicateurs précis ? Si tel est le cas, vous devrez conserver uniquement les données correspondant à ces indicateurs.
Supposons qu'une table contienne un code produit alors que le responsable marketing a besoin du nom. Dans ce cas, vous devez combiner les tables de données et les tables de faits pour qu'il puisse accéder à cette information. Pour la préparation de données comme pour la création de tableaux de bord, vous devez savoir qui sont les utilisateurs finaux.
À quelles questions les données doivent-elles permettre de répondre ?
Lors de la préparation des données, vous devez déterminer à quoi servira votre ensemble de données : à obtenir une synthèse rapide ou à effectuer des analyses complexes. C'est très important, car cela détermine les efforts à fournir et le niveau de détail nécessaire.
Votre interprétation des priorités stratégiques de votre entreprise vous aidera à anticiper les questions les plus courantes, mais vous ne pouvez pas toutes les prévoir. Lorsque vous préparez un ensemble de données, vous devez à la fois permettre de trouver des réponses rapides et d'explorer dans les détails. Un utilisateur peut par exemple observer une tendance dans les ventes des six derniers mois, mais il devra approfondir l'analyse et examiner les données au niveau des jours pour mieux comprendre un pic des ventes pour une semaine particulière.
Où se trouvent les données ?
Vous devez en fait vous poser plusieurs questions. Par exemple, avez-vous les autorisations requises pour accéder à une source de données particulière, et celle-ci est-elle bien organisée ? En d'autres termes, lorsque vous l'utilisez dans Tableau, pouvez-vous réaliser l'analyse que vous souhaitez ? Vous devez répondre à ces deux questions avant de vous lancer dans la préparation de vos données.
Pour en savoir plus sur la manière dont les données doivent être structurées pour l'analyse dans Tableau Desktop, consultez l'aide en ligne.
Une fois que vous pouvez accéder aux données nécessaires, vous devez déterminer où elles se trouvent. Demandez-vous si elles sont dans une seule table ou réparties dans plusieurs tables d'une même base de données. Vous devrez peut-être combiner plusieurs bases de données ou utiliser une source de données externe si vous avez besoin d'une vue plus robuste. Par exemple, si vous voulez connaître l'influence des facteurs socio-économiques sur les résultats des tests des étudiants de votre région, intégrez des données de recensement. Vous avez souvent besoin d'ajouter des sources de données externes pour avoir toutes les informations.
Apprenez à connaître la structure de vos données
Maintenant que vous avez déterminé comment et par qui les données vont être utilisées, et où elles résident, vous devez comprendre comment elles sont structurées. Vous ne feriez pas de travaux de rénovation dans une maison sans savoir où sont les murs porteurs. De la même manière, vous ne commencerez pas la préparation des données sans savoir quels champs sont liés, comment les données ont été intégrées (manuellement ou automatiquement) ou quel est le niveau de détail. Connaître la structure des données vous permet de développer une stratégie avant de vous lancer dans la préparation.
Apprenez à connaître vos données
Avant de mettre vos données dans un outil de préparation, vous devez comprendre à quoi vous avez affaire et déterminer si vous utilisez toutes les données ou une partie seulement. Vous devrez peut-être aussi les explorer avant de commencer à les nettoyer.
Ajustez la taille de votre échantillon
Lorsque vous vous connectez à un ensemble de données volumineux, vous pouvez utiliser seulement un échantillon pour accélérer la préparation et optimiser les performances. Si vous préférez travailler avec l'ensemble de données complet, c'est possible aussi dans Tableau Prep. Si votre échantillon ne suffit pas, voici quelques astuces :
- Augmentez la taille de votre échantillon. Revenez à la première étape, l'ajout des données, et rectifiez le nombre de lignes à utiliser. Vous pouvez augmenter cette valeur ou inclure toutes les données. Toutefois, cela peut ralentir les performances. Notez également que le fait d'utiliser un nombre fixe de lignes renvoie uniquement ce que la base de données utilise comme critères pour renvoyer le plus rapidement possible les lignes demandées. Autrement dit, ce ne sont pas nécessairement les 1 000 premières lignes de la base de données.
- Utilisez l'échantillonnage aléatoire. Par défaut, Tableau Prep calcule le nombre optimal de lignes à renvoyer en fonction du nombre total de champs de l'ensemble de données et du type de données qu'ils contiennent. L'échantillonnage aléatoire est effectué au niveau de la base de données et renvoie le nombre de lignes demandé. La base de données analyse chaque ligne et renvoie un échantillon. Cette option n'est pas disponible pour toutes les sources de données et elle peut affecter les performances.
- Ajoutez un filtre au moment de l'ajout. Cela permet de garantir que les données envoyées dans votre ensemble de données seront utiles à l'analyse. Votre échantillon sera ainsi plus représentatif et vous permettra d'optimiser les performances.
Explorez vos données
Tout d'abord, vous voudrez peut-être voir le nombre de valeurs uniques pour un champ donné. Par exemple, ci-dessous le nombre d'États présents dans l'ensemble de données est indiqué en haut, dans l'en-tête de colonne. Vous voudrez aussi savoir comment les différentes valeurs sont liées afin de repérer les problèmes ou les valeurs inhabituelles. Dans Tableau Prep, le surlignage permet de mettre en évidence des relations entre les champs. Lorsque vous cliquez sur une valeur dans le volet Profil, la grille des données s'actualise et affiche les enregistrements contenant cette valeur dans le champ indiqué. Tableau Prep signale les valeurs dans les différents champs et affiche en bleu les valeurs associées.
Supprimez les données inutiles
Pour optimiser les performances globales de la préparation, ajoutez uniquement les champs dont vous avez besoin pour votre analyse.
Supposons que vous prépariez un ensemble de données pour vos ventes et vos produits. Vous savez que vous allez ensuite l'utiliser dans Tableau pour analyser les performances de vente sur l'année. Vous n'avez donc pas forcément besoin de détails comme la date d'expédition de chaque produit. Cela ne renseigne pas sur les ventes ni sur les raisons pour lesquelles vos clients ont acheté vos produits. Cette date indique seulement quand le produit a quitté l'entrepôt ; vous pouvez probablement la supprimer de votre source de données. Pendant la préparation, si vous constatez que vous n'avez plus besoin d'un des champs, vous pouvez simplement le retirer du flux.
Astuce : pendant la préparation, vous pouvez également scinder des champs en plusieurs colonnes. Pensez alors à supprimer la colonne d'origine, car vous n'en aurez probablement plus besoin.
Le filtrage des données permet aussi de gagner du temps et de garantir que vous réalisez une analyse pertinente. Si vous savez par exemple que vous avez juste besoin des données de vente des deux dernières années, filtrez sur cette plage de dates ou utilisez un filtre Date relative. Votre source contient peut-être des données non pertinentes ou incorrectes. Cliquez simplement sur une valeur dans le volet Données pour l'exclure, à n'importe quelle étape du flux.
Vérifiez et nettoyez
Dans Tableau, les types de données sont importants pour l'analyse : vous devez identifier chaque champ avant de vous lancer. Vous pouvez modifier les alias, changer le type de données, scinder des champs et écrire des calculs dans Tableau, mais c'est encore plus simple d'effectuer toutes ces actions en amont, en particulier lorsque vous créez un ensemble de données qui sera utilisé par quelqu'un d'autre.
Il est essentiel de comprendre la qualité des données pour chaque champ. Tous les numéros de téléphone que vous collectez dans le cadre d'une enquête peuvent par exemple avoir plusieurs formats, surtout si de nombreuses personnes ont été interrogées. L'inspection manuelle de milliers ou de millions de valeurs pour vérifier leur cohérence est non seulement chronophage, mais aussi source d'erreurs. Pour disposer d'un ensemble de données le plus propre possible, il faut identifier des schémas et pouvoir faire toutes les modifications en même temps. Grâce aux fonctions intégrées de Tableau Prep, comme les opérations de nettoyage rapide qui permettent de supprimer des signes de ponctuation, des chiffres, des lettres ou des espaces, vous pouvez faire tous ces changements rapidement et facilement.
Si le champ État contient par exemple « Californie » et « CA » alors que les autres valeurs utilisent le nom entier des États, vous pouvez rectifier de façon à ce que tous les enregistrements « Californie » incluent les instances de « CA ».
Parfois, vos données sont globalement correctes, à part quelques erreurs. Tableau Prep est un outil intelligent. Il utilise des algorithmes pour vous aider à normaliser vos données. Si une colonne contient des noms de ville fournis par les utilisateurs et que vous constatez qu'Albuquerque a été mal orthographié à plusieurs reprises, Tableau Prep permet de regrouper et de remplacer les données d'après des caractères communs ou la prononciation, ce qui vous évite de fastidieuses rectifications manuelles. Ces options utilisent des algorithmes pour simplifier le nettoyage. Si vous constatez qu'il manque une valeur, vous pouvez l'ajouter manuellement pour qu'elle soit intégrée lorsque tout l'ensemble de données sera traité. Si vous savez qu'un champ doit être nettoyé ou filtré, mais que cela nécessite des outils qui ne sont pas inclus dans l'interface, vous pouvez utiliser un calcul.
Anticipez l'aspect final de vos données
Lorsque vous commencez à préparer vos données, vous ne savez pas forcément à quoi ressemblera l'ensemble de données final. Vous devrez peut-être combiner plusieurs sources ou permuter vos colonnes et lignes pour que Tableau puisse correctement évaluer les données.
C'est plus facile si vous cherchez à savoir ce que sera le volet Données dans Tableau Desktop. Aurez-vous plusieurs colonnes avec la même valeur ? Un produit particulier doit-il avoir sa propre colonne avec les transactions correspondantes, ou tous les produits doivent-ils être des champs uniques avec les ventes dans une colonne distincte ? Vous préférerez probablement cette deuxième solution, ce qui nécessitera de permuter les données.
Pour combiner deux tables, vous pouvez utiliser une jointure ou une union. Une jointure permet d'ajouter des champs à la source de données, ce qui augmente le nombre de champs que vous pouvez analyser. Vous pouvez ajouter une jointure à tout moment pendant la préparation des données. Mais plus tôt vous le ferez, plus vite vous pourrez comprendre votre ensemble de données et décèlerez ce qui nécessite une attention particulière.
L'union permet aussi de rassembler deux ensembles de données. Par exemple, si vous avez un fichier Excel où chaque feuille contient les transactions d'une année différente, vous pouvez utiliser une union plutôt qu'une jointure pour conserver la même structure même si vous ajoutez des lignes.
Lorsque vous réunissez des tables, que ce soit par une jointure ou une union, pensez au niveau de détail. Vous devrez peut-être le changer. En cas de problème, essayez d'agréger les données.
Gardez une trace des étapes suivies
L'organisation est essentielle tout au long de la préparation des données, en particulier si vous devez revenir en arrière et rectifier quelque chose. Vous n'avez pas à suivre des instructions dans un ordre particulier : préparez vos données de la manière qui vous semble logique. Toutefois, ce sera plus facile si vous gardez une trace de vos modifications.
Préparez vos données selon votre propre logique
La préparation implique diverses tâches, de la restructuration au nettoyage en passant par la réorganisation. Vous devriez pouvoir les effectuer dans l'ordre que vous voulez. Tableau Prep vous permet d'apporter des changements et d'actualiser vos données selon votre propre logique. Alors que certains commenceront par permuter leurs données, d'autres préféreront corriger les fautes d'orthographe ou s'occuper des données manquantes.
Compartimentez chaque étape
Chaque étape que vous ajoutez à votre flux contient un ensemble spécifique d'actions. Organisez ces étapes comme les dossiers dans votre bureau, pour retrouver facilement ce que vous cherchez. Ainsi, chaque étape du flux devrait réunir plusieurs changements qui constituent une tâche particulière. Par exemple, pour les noms des clients, vous pouvez scinder des champs, remapper des valeurs et appliquer des filtres sur d'autres champs afin d'obtenir la bonne segmentation pour votre source de données. Si vous regroupez toutes ces actions dans une même étape, vous pouvez ajouter un nom représentatif qui vous aidera à vous y retrouver par la suite. Ce sera utile aussi pour les autres analystes si vous partagez votre flux : ils pourront retrouver et comprendre vos actions, et les adapter plus facilement.
Garder une trace de ce qui se passe à chaque étape est facile. Et si vous changez d'avis, vous pouvez rapidement supprimer ou modifier une action.
Appuyez-vous sur les informations visuelles
La préparation des données est plus facile si vous pouvez voir comment elles s'articulent (nombre de lignes après une jointure, fautes d'orthographe, etc.) avant de vous lancer dans l'analyse. Comme Tableau Desktop, Tableau Prep a été conçu pour aider les utilisateurs à voir et à comprendre leurs données.
Grille de données
La grille des données est idéale pour vous repérer dans vos données. Vous pouvez voir directement l'effet de vos modifications et mieux déceler les anomalies.
Mini-cartes
Parfois, vous pensez que vos données sont parfaitement nettoyées, mais avec une mini-carte, vous remarquez une donnée atypique ou quelques enregistrements manquants. Utilisez la mini-carte pour repérer les problèmes de ce type et les résoudre.
Assurez-vous que vous avez bien compris la jointure
Lorsque vous combinez plusieurs champs, une erreur est vite arrivée. L'interface visuelle de Tableau Prep vous permet de voir les résultats d'une jointure afin de déceler les erreurs ou valeurs inhabituelles, les données renvoyées trop nombreuses, et de vérifier si les données sont correctes.
Procédez par itération
Vous pouvez revenir à tout moment sur la préparation des données. Elle ne se termine pas lorsque vous avez corrigé toutes les fautes d'orthographe ou effectué toutes les jointures nécessaires. En cas de mise à jour de l'ensemble de données, de nouvelles questions peuvent émerger ou un nouveau champ peut être nécessaire. Tableau Prep permet d'ouvrir un échantillon dans Tableau Desktop, ce qui vous permet de savoir ce que donnera l'analyse de vos données.
Exécutez le flux et commencez l'analyse
Une fois les données nettoyées, restructurées et filtrées, vous pouvez passer à l'analyse. Contrairement à de nombreux autres outils de préparation des données, Tableau Prep est intégré à votre plate-forme BI. Vous pouvez publier l'extrait sur Tableau Server ou Tableau Online pour permettre aux autres utilisateurs de se lancer dans leurs propres analyses. Vous pouvez même l'ouvrir dans Tableau Deskop pour l'explorer et trouver des réponses plus poussées. Maintenant que vous avez terminé la partie la plus laborieuse, vous pouvez faire parler vos données.
Prise en main de Tableau Prep
Vous n'avez pas encore vraiment utilisé Tableau Prep ? Vous nettoyez des données pour la première fois ? Cette vidéo est faite pour vous.