Préparez vos données aux interactions en langage naturel de « Parlez aux données »
Parlez aux données, l'outil qui apporte le langage naturel dans Tableau, est compatible avec toutes les sources de données que vous avez publiées sur Tableau Server ou Tableau Online. Cependant, pour en tirer pleinement parti, préparez soigneusement vos sources de données afin d'optimiser la conversation analytique.
Pour vous aider à déployer « Parlez aux données », nous vous proposons ce guide sur la curation adéquate des sources de données pour garantir une expérience optimale.
Interprétation des questions
« Parlez aux données » s'appuie sur le contexte pour déterminer les attributs du type de données pertinent. Les phrases (formulations) sont décomposées en expressions contenant des informations temporelles, spatiales ou numériques, afin de comprendre les intentions des utilisateurs. L'outil utilise ensuite les meilleures pratiques de l'analyse visuelle pour déterminer la visualisation qui correspond le mieux à ces intentions.
Prenons l'exemple d'un utilisateur qui interroge une source de données publiée contenant les chiffres des ventes depuis le début de l'année. Il peut demander à voir les bénéfices dans le temps en tapant « What is the profit over time? » dans la zone de saisie de l'outil « Parlez aux données ». Dans ce cas, « Parlez aux données » répond à l'intention de l'utilisateur en agrégeant le champ Profit sous forme de somme, qui est l'agrégation par défaut. Pour l'aspect temporel, le champ de la date de commande est agrégé au niveau des années (Figure 1).
L'efficacité de l'algorithme d'inférence de « Parlez aux données » est optimale lorsque tous les attributs ont le type de données attendu. Dans cet exemple, le type de données attendu serait Date, qui génère une visualisation sous forme de série chronologique (tendance dans le temps). Les mesures doivent être spécifiées en utilisant l'agrégation et la mise en forme numérique par défaut.
Avec « Parlez aux données », vous pouvez poser des questions en anglais sur les champs calculés, les champs de colonne, les champs de groupe et les champs de classe dans vos sources de données publiées. À l'heure actuelle, les ensembles, les paramètres, les champs combinés, les ensembles combinés et les hiérarchies ne sont pas pris en charge. Tableau prévoit de prendre en charge ces types de champ dans les prochaines versions.
Expressions analytiques prises en charge dans « Parlez aux données »
Il existe 5 types d'expressions analytiques de base. Une formulation (phrase) peut contenir une ou plusieurs de ces expressions.
Ces expressions analytiques sont prises en charge dans « Parlez aux données » :
« Parlez aux données » propose certains des synonymes les plus courants pour ces concepts, comme « from largest » pour l'ordre décroissant, ou « mean » pour la moyenne. Vous pouvez également utiliser des abréviations, comme « cnt » pour count (nombre), « avg » pour average (moyenne), etc. Reportez-vous à la section sur l'ajout des synonymes pour en savoir plus sur cette procédure.
Par ailleurs, « Parlez aux données » peut représenter les expressions temporelles comme étant absolues ou relatives. Les concepts absolus sont pris en charge avec des expressions comme « starts in » (commence dans), « ends in » (se termine dans) ou « between » (entre), et les concepts relatifs avec des expressions comme « last 3 years » (ces 3 dernières années), « next quarter » (le trimestre prochain), « this month » (ce moi-ci), « today » (aujourd'hui) et « yesterday » (hier).
Préparez vos sources de données pour une conversation analytique optimale
« Parlez aux données » est conçu pour fonctionner avec toutes les sources de données publiées sur Tableau Server ou Tableau Online. Pour proposer des valeurs par défaut utiles pour les expressions de filtrage, l'outil enrichit le modèle sémantique à l'aide de métadonnées sur les champs. Pour des mesures numériques continues, ces métadonnées comprennent des informations statistiques de type « minimum », « maximum » et « average ». Pour les champs de texte, les métadonnées contiennent les valeurs les plus courantes.
À mesure qu'un utilisateur saisit une expression de filtrage dans Parlez aux données, ces métadonnées permettent au système de suggérer des valeurs. Dans la figure ci-dessous par exemple, la valeur « $4 » est proposée comme valeur minimale dans les métadonnées pour l'attribut « Price » et le filtre « at least ».
Pour des sources de données avec des autorisations au niveau des lignes, « Parlez aux données » n'établit pas leur profil, ne les indexe pas et ne stocke pas les métadonnées de leurs champs dans le modèle sémantique. En l'absence de métadonnées, « Parlez aux données » ne peut pas proposer de valeurs par défaut pour les filtres (comme dans la Figure 2), reconnaître des concepts comparatifs (par exemple « cheap » ou « high »), ou encore afficher les données de profil dans des infobulles dans le volet Données.
Nous sommes toutefois conscients que certaines sources de données sont soumises à des obligations de sécurité au niveau des lignes. « Parlez aux données » ne peut alors pas indexer vos sources de données. Il suffit cependant de spécifier entre guillemets les valeurs exactes que vous souhaitez filtrer pour pouvoir tirer parti de ses fonctionnalités.
Supposons que vous vouliez savoir dans quels vignobles californiens on trouve du pinot noir. Si votre source de données inclut une sécurité au niveau des lignes, vous devez saisir votre requête de cette façon :
Il n'est pas nécessaire de placer les données de type date, booléen ou nombre entre guillemets, car « Parlez aux données » reconnaît ces types de valeurs et les associe automatiquement aux bons champs.
Si vous publiez déjà des sources de données certifiées, vos équipes peuvent en tirer parti dans « Parlez aux données ». Il peut cependant être utile de mettre des sources supplémentaires à la disposition de vos utilisateurs ou de remanier celles que vous avez déjà pour faciliter l'analyse avec « Parlez aux données ». Pour exploiter tout le potentiel de l'outil « Parlez aux données », préparez vos données en tenant compte des recommandations suivantes.
Préparez vos données en pensant avant tout à l'utilisateur final
Les utilisateurs de « Parlez aux données » trouveront plus facilement les réponses à leurs questions si les données ont subi une curation soigneuse, effectuée par un gestionnaire dédié ou un analyste qui comprend une telle étape et peut anticiper le type de questions qui seront posées en langage naturel.
Pour en savoir plus, lisez notre livre blanc sur les meilleures pratiques pour la curation d'une source de données publiée.
Lors de la curation des données à utiliser dans « Parlez aux données », simplifiez autant que possible vos sources de données publiées. Autrement dit, gardez juste les champs que les utilisateurs vont utiliser dans leurs questions et supprimez (ou masquez) les champs superflus dans la source de données. « Parlez aux données » prend en charge les sources contenant jusqu'à 1 000 champs, mais il vaut mieux réduire les risques d'ambiguïté. Cela permet d'améliorer les performances globales du système, ainsi que d'accélérer le temps d'initialisation et l'analyse des formulations en langage naturel. Si la source de données est lente, utilisez un extrait avec des filtres (si nécessaire) pour améliorer les performances.
Conseils pour la curation de vos sources de données à utiliser avec « Parlez aux données » :
Préparez vos données. Essayez d'anticiper les types de questions que les utilisateurs voudront poser. Il peut être nécessaire de remanier les données, de créer des jointures et d'utiliser des fonctions de préparation pour permettre à « Parlez aux données » de traiter ces questions.
Définissez des valeurs par défaut appropriées pour les champs. Attribuez à chaque champ le type de données correct (chaîne, nombre, rôle géographique, date, date et heure, booléen), et le rôle approprié (discret ou continu, mesure ou dimension). Pour chaque mesure, attribuez les fonctions d'agrégation par défaut. Par exemple, SUM peut être une valeur par défaut appropriée pour « Sales », mais AVERAGE sera plus adaptée pour « Test Score ».
Définissez les formats de nombre pour les pourcentages et les devises. Pour prendre en charge les expressions familières que les utilisateurs peuvent écrire, « Parlez aux données » inclut des concepts comme « low », « lowest », et « highest », ou encore comme « cheap » et « expensive », ainsi que les synonymes correspondants. Pour rendre possibles les formulations du type « show me the cheapest wineries in France », définissez le format de devise approprié pour les mesures de la source de données (comme indiqué dans les Figures 3 et 4).
Définissez des hiérarchies logiques. Cela permet aux utilisateurs d'explorer avec plus ou moins de détails la hiérarchie dans les visualisations produites par « Parlez aux données ». Cette recommandation s'applique aux dimensions géographiques (City, State, Country), aux dates et heures (year, quarter, month) et aux dimensions subordonnées (Catégorie et Sous-catégorie).
Créez des champs compartimentés judicieusement (avec des tailles de classe adaptées) pour les variables quantitatives dans les cas suivants :
Choisissez des noms de champs uniques et explicites
Pour rendre la source de données plus facile à comprendre par les utilisateurs et pour permettre à ces derniers de trouver plus facilement des réponses à leurs questions, faites attention au nom que vous attribuez aux champs de votre source de données.
Voici comment optimiser l'expérience utilisateur :
Créez des alias parlants pour les valeurs des champs. Dans Tableau Desktop, vous pouvez créer des noms de champs intuitifs avec des alias (par exemple, « CustID » désigne « Customer ID »). Il s'agit d'une recommandation habituelle pour la curation des données. Pour « Parlez aux données », vous pouvez aller plus loin en ajoutant des synonymes. Un utilisateur peut par exemple utiliser « Customer Number » pour « Customer ID ». Dans une telle situation, vous pouvez ajouter ces synonymes à « Parlez aux données » pour mieux gérer les questions de ces utilisateurs.
Différenciez les attributs. Attribuez des noms uniques aux attributs dans votre source de données pour optimiser l'expérience utilisateur dans « Parlez aux données ». Si une expression contient une ambiguïté, l'outil recherche les chaînes qui correspondent approximativement, à un caractère près (« fuzzy matching »). « Parlez aux données » affiche ensuite ces multiples correspondances sous forme d'options. Dans l'exemple ci-dessous (Figure 8), la source de données contient plusieurs attributs avec le terme « Sales ». Néanmoins, si l'utilisateur saisit simplement « sales », seuls trois attributs sont détectés, et l'attribut « Sales Foo » présente une différence de plus d'un caractère.
Il est également recommandé de nommer les attributs qui ont une pertinence sémantique pour le domaine de la source de données, pour que les questions posées dans « Parlez aux données » soient intuitives pour l'analyse. Par exemple, « Number of Records » est devenu « Number of Earthquakes » et chaque enregistrement de la source de données correspond à un tremblement de terre (Figure 9).
Vérifiez les noms des champs. « Parlez aux données » filtre les valeurs en fonction des champs de la source de données. Évitez d'utiliser des valeurs (des nombres, des dates ou des valeurs booléennes, comme « true » ou « false ») pour renommer les champs, afin d'éviter que l'outil « Parlez aux données » interprète mal ces champs. De même, pour des raisons de performance, « Parlez aux données » n'indexe pas les champs qui contiennent des expressions analytiques prises en charge. Par exemple, évitez les noms « Average », « Sales in 2015 » ou « Most Products Sold ».
Utilisez le géocodage pour les champs géographiques. Pour les champs ayant un rôle géographique, assurez-vous que les valeurs des données sont correctement géocodées. Ils seront ainsi reconnus comme attributs géographiques par « Parlez aux données » et identifiés par une icône dans le volet Données (Figure 10). Ces attributs prennent en charge les formulations du type « Where are the highest fire fatalities? ». Le système reconnaît l'élément « Where », qui indique l'utilisation d'une carte, et suggère un attribut géographique comme « County ».
Ajoutez les champs calculés pertinents
« Parlez aux données » n'est pas en mesure de créer des calculs à la volée. Vous devez ajouter préalablement tous les calculs nécessaires dans votre source de données. Par exemple, en créant un champ calculé « Total Compensation », qui additionne le salaire minimum du champ « Base (Variable ») aux commissions du champ « Commission (Variable) », vous permettez aux utilisateurs de poser des questions pour déterminer la rémunération totale pour chaque commercial (Figures 11 et 12).
Enrichissez vos données en ajoutant des synonymes
Vous pouvez définir des synonymes pour les champs d'une source de données depuis le volet des champs dans « Parlez aux données ». Imaginons que vous disposiez d'une source de données sur les achats de véhicules, avec l'un des champs intitulé « New Vehicle Model ». En ajoutant les synonymes « vehicle purchased » et « car » pour ce champ, vous permettez à l'outil de prendre en charge des formulations du type « vehicles purchased by city » (Figure 13).
Accès aux données et gouvernance
« Parlez aux données » applique les mêmes mesures de sécurité et de gouvernance que celles que vous connaissez dans Tableau Server ou Tableau Online. Les sections suivantes décrivent l'utilisation des sources de données certifiées avec « Parlez aux données » et le contrôle des accès à cet outil en entreprise.
Définissez les rôles et les droits des utilisateurs
Une fois la curation des données terminée, vous pouvez décider qui peut accéder à l'outil « Parlez aux données ». Pour l'utiliser, vos utilisateurs doivent avoir les rôles Creator ou Explorer et avoir accès à la création Web sur Tableau Server ou Tableau Online. Les administrateurs de Tableau Server peuvent définir des autorisations au niveau des sites pour déterminer quels utilisateurs ont accès à la création Web (Figure 14). Les analystes et les utilisateurs métier pourront tirer parti de « Parlez aux données » pour explorer facilement et rapidement une source de données et découvrir de précieuses informations exploitables à la volée.
Découvrez plus en détail les autorisations pour la création Web.
Vérifiez les sources de données certifiées
Les utilisateurs peuvent certifier une source de données sur Tableau Server ou Tableau Online pour indiquer qu'elle est fiable et correctement préparée. Cette certification n'est pas propre à « Parlez aux données ». Néanmoins, si un utilisateur veut spécifiquement désactiver « Parlez aux données » pour une source de données, il peut le faire avec les paramètres de cette source de données dans l'interface utilisateur de Tableau Server (Figures 15 et 16).
Avec « Parlez aux données », tout le monde dans l'entreprise peut poser des questions en s'appuyant sur les données. En suivant ces recommandations, vous pourrez préparer vos données de manière à faciliter l'analyse en langage naturel.