Préparez vos données aux interactions en langage naturel de « Parlez aux données »

Parlez aux données, l'outil qui apporte le langage naturel dans Tableau, est compatible avec toutes les sources de données que vous avez publiées sur Tableau Server ou Tableau Online. Cependant, pour en tirer pleinement parti, préparez soigneusement vos sources de données afin d'optimiser la conversation analytique.

Pour vous aider à déployer « Parlez aux données », nous vous proposons ce guide sur la curation adéquate des sources de données pour garantir une expérience optimale.

Interprétation des questions

« Parlez aux données » s'appuie sur le contexte pour déterminer les attributs du type de données pertinent. Les phrases (formulations) sont décomposées en expressions contenant des informations temporelles, spatiales ou numériques, afin de comprendre les intentions des utilisateurs. L'outil utilise ensuite les meilleures pratiques de l'analyse visuelle pour déterminer la visualisation qui correspond le mieux à ces intentions.

Prenons l'exemple d'un utilisateur qui interroge une source de données publiée contenant les chiffres des ventes depuis le début de l'année. Il peut demander à voir les bénéfices dans le temps en tapant « What is the profit over time? » dans la zone de saisie de l'outil « Parlez aux données ». Dans ce cas, « Parlez aux données » répond à l'intention de l'utilisateur en agrégeant le champ Profit sous forme de somme, qui est l'agrégation par défaut. Pour l'aspect temporel, le champ de la date de commande est agrégé au niveau des années (Figure 1).

Figure 1  Visualization output from the expression “what is the profit over time?”

Figure 1 : Visualisation résultant de la question « What is the profit over time? »

L'efficacité de l'algorithme d'inférence de « Parlez aux données » est optimale lorsque tous les attributs ont le type de données attendu. Dans cet exemple, le type de données attendu serait Date, qui génère une visualisation sous forme de série chronologique (tendance dans le temps). Les mesures doivent être spécifiées en utilisant l'agrégation et la mise en forme numérique par défaut.

Avec « Parlez aux données », vous pouvez poser des questions en anglais sur les champs calculés, les champs de colonne, les champs de groupe et les champs de classe dans vos sources de données publiées. À l'heure actuelle, les ensembles, les paramètres, les champs combinés, les ensembles combinés et les hiérarchies ne sont pas pris en charge. Tableau prévoit de prendre en charge ces types de champ dans les prochaines versions.


Expressions analytiques prises en charge dans « Parlez aux données »

Il existe 5 types d'expressions analytiques de base. Une formulation (phrase) peut contenir une ou plusieurs de ces expressions.

Ces expressions analytiques sont prises en charge dans « Parlez aux données » :

Expressions d'agrégation : les valeurs de plusieurs lignes sont regroupées pour constituer une valeur unique à l'aide d'une fonction mathématique. Exemple : « Sum of Sales », « Average Profit » ou « Count of Customers ».

Expressions de groupe : expressions qui répartissent les données en catégories présentées dans une visualisation, comme « by Region » ou « by Sales ».

Expressions de tri : expressions qui organisent les lignes de données dans un ordre précis, par exemple croissant, décroissant ou alphabétique. Exemple : « sort Products in ascending order by sum of Profit » ou « sort Customer Name in alphabetical order ».

Expressions de filtrage : expressions qui renvoient un sous-ensemble du domaine du champ. Il peut s'agir de filtres numériques comme « sum of Sales at least $2,000 » ou de catégorie, comme « Customer Name starts with John » ou « Category contains Manufacturing ».

Expressions de délimitation : expressions similaires aux filtres, qui renvoient un sous-ensemble du domaine d'un champ en se limitant à un certain nombre de lignes. Exemple : « top 5 Wineries by sum of Sales » ou « bottom Category by average Profit ».

Découvrez plus en détail les fonctions analytiques prises en charge.

« Parlez aux données » propose certains des synonymes les plus courants pour ces concepts, comme « from largest » pour l'ordre décroissant, ou « mean » pour la moyenne. Vous pouvez également utiliser des abréviations, comme « cnt » pour count (nombre), « avg » pour average (moyenne), etc. Reportez-vous à la section sur l'ajout des synonymes pour en savoir plus sur cette procédure.

Par ailleurs, « Parlez aux données » peut représenter les expressions temporelles comme étant absolues ou relatives. Les concepts absolus sont pris en charge avec des expressions comme « starts in » (commence dans), « ends in » (se termine dans) ou « between » (entre), et les concepts relatifs avec des expressions comme « last 3 years » (ces 3 dernières années), « next quarter » (le trimestre prochain), « this month » (ce moi-ci), « today » (aujourd'hui) et « yesterday » (hier).

Préparez vos sources de données pour une conversation analytique optimale

« Parlez aux données » est conçu pour fonctionner avec toutes les sources de données publiées sur Tableau Server ou Tableau Online. Pour proposer des valeurs par défaut utiles pour les expressions de filtrage, l'outil enrichit le modèle sémantique à l'aide de métadonnées sur les champs. Pour des mesures numériques continues, ces métadonnées comprennent des informations statistiques de type « minimum », « maximum » et « average ». Pour les champs de texte, les métadonnées contiennent les valeurs les plus courantes.

À mesure qu'un utilisateur saisit une expression de filtrage dans Parlez aux données, ces métadonnées permettent au système de suggérer des valeurs. Dans la figure ci-dessous par exemple, la valeur « $4 » est proposée comme valeur minimale dans les métadonnées pour l'attribut « Price » et le filtre « at least ».

A user types a filter expression in Ask Data, this metadata allows the system to provide defaults for values.

Figure 2 : La valeur « $4 » est fournie comme valeur minimale dans les métadonnées pour l'attribut « Price » et le filtre « at least ».

Pour des sources de données avec des autorisations au niveau des lignes, « Parlez aux données » n'établit pas leur profil, ne les indexe pas et ne stocke pas les métadonnées de leurs champs dans le modèle sémantique. En l'absence de métadonnées, « Parlez aux données » ne peut pas proposer de valeurs par défaut pour les filtres (comme dans la Figure 2), reconnaître des concepts comparatifs (par exemple « cheap » ou « high »), ou encore afficher les données de profil dans des infobulles dans le volet Données.

Nous sommes toutefois conscients que certaines sources de données sont soumises à des obligations de sécurité au niveau des lignes. « Parlez aux données » ne peut alors pas indexer vos sources de données. Il suffit cependant de spécifier entre guillemets les valeurs exactes que vous souhaitez filtrer pour pouvoir tirer parti de ses fonctionnalités.

Supposons que vous vouliez savoir dans quels vignobles californiens on trouve du pinot noir. Si votre source de données inclut une sécurité au niveau des lignes, vous devez saisir votre requête de cette façon :

Wineries filter State to « California » filter Variety to « Pinot Noir »

Il n'est pas nécessaire de placer les données de type date, booléen ou nombre entre guillemets, car « Parlez aux données » reconnaît ces types de valeurs et les associe automatiquement aux bons champs.

Si vous publiez déjà des sources de données certifiées, vos équipes peuvent en tirer parti dans « Parlez aux données ». Il peut cependant être utile de mettre des sources supplémentaires à la disposition de vos utilisateurs ou de remanier celles que vous avez déjà pour faciliter l'analyse avec « Parlez aux données ». Pour exploiter tout le potentiel de l'outil « Parlez aux données », préparez vos données en tenant compte des recommandations suivantes.



Préparez vos données en pensant avant tout à l'utilisateur final

Les utilisateurs de « Parlez aux données » trouveront plus facilement les réponses à leurs questions si les données ont subi une curation soigneuse, effectuée par un gestionnaire dédié ou un analyste qui comprend une telle étape et peut anticiper le type de questions qui seront posées en langage naturel.

Pour en savoir plus, lisez notre livre blanc sur les meilleures pratiques pour la curation d'une source de données publiée.

Lors de la curation des données à utiliser dans « Parlez aux données », simplifiez autant que possible vos sources de données publiées. Autrement dit, gardez juste les champs que les utilisateurs vont utiliser dans leurs questions et supprimez (ou masquez) les champs superflus dans la source de données. « Parlez aux données » prend en charge les sources contenant jusqu'à 1 000 champs, mais il vaut mieux réduire les risques d'ambiguïté. Cela permet d'améliorer les performances globales du système, ainsi que d'accélérer le temps d'initialisation et l'analyse des formulations en langage naturel. Si la source de données est lente, utilisez un extrait avec des filtres (si nécessaire) pour améliorer les performances.

Conseils pour la curation de vos sources de données à utiliser avec « Parlez aux données » :

Préparez vos données. Essayez d'anticiper les types de questions que les utilisateurs voudront poser. Il peut être nécessaire de remanier les données, de créer des jointures et d'utiliser des fonctions de préparation pour permettre à « Parlez aux données » de traiter ces questions.

Définissez des valeurs par défaut appropriées pour les champs. Attribuez à chaque champ le type de données correct (chaîne, nombre, rôle géographique, date, date et heure, booléen), et le rôle approprié (discret ou continu, mesure ou dimension). Pour chaque mesure, attribuez les fonctions d'agrégation par défaut. Par exemple, SUM peut être une valeur par défaut appropriée pour « Sales », mais AVERAGE sera plus adaptée pour « Test Score ».

Définissez les formats de nombre pour les pourcentages et les devises. Pour prendre en charge les expressions familières que les utilisateurs peuvent écrire, « Parlez aux données » inclut des concepts comme « low », « lowest », et « highest », ou encore comme « cheap » et « expensive », ainsi que les synonymes correspondants. Pour rendre possibles les formulations du type « show me the cheapest wineries in France », définissez le format de devise approprié pour les mesures de la source de données (comme indiqué dans les Figures 3 et 4).

Figure 3   Set up measures in the data source with the appropriate currency format.

Figure 3 : Définissez le format de devise approprié pour les mesures de la source de données.

Figure 4   For the utterance “cheapest wineries in France,” the system infers a currency attribute ‘Price’ for the concept ‘cheapest’.  Ask Data infers a numeric range from the metadata for ‘Price’. Clicking on ‘cheapest’ refines the inferred numerical values.

Figure 4 : Pour la formulation « show me the cheapest wineries in France », le système détermine un attribut de devise « Price » pour le concept « cheapest ». L'outil Parlez aux données se base sur les métadonnées de « Price » pour déterminer une plage numérique. Cliquez sur « cheapest » pour affiner les valeurs numériques ainsi déterminées.

Définissez des hiérarchies logiques. Cela permet aux utilisateurs d'explorer avec plus ou moins de détails la hiérarchie dans les visualisations produites par « Parlez aux données ». Cette recommandation s'applique aux dimensions géographiques (City, State, Country), aux dates et heures (year, quarter, month) et aux dimensions subordonnées (Catégorie et Sous-catégorie).

Créez des champs compartimentés judicieusement (avec des tailles de classe adaptées) pour les variables quantitatives dans les cas suivants :

  • Visualisation d'une version compartimentée d'un champ qui n'est pas une mesure dans la source de données.
    Le champ « Age », par exemple, est une dimension numérique qui ne peut pas être représentée sous forme d'histogramme dans Tableau, et donc dans « Parlez aux données ». Néanmoins, vous pouvez créer un champ compartimenté pour Age dans la source de données, pour permettre à l'utilisateur de poser des questions en utilisant ce champ (comme dans la Figure 5).
Figure 5 A user can type “by Age (bin)” to view a binned form of the dimension as a bar chart.

Figure 5 : Un utilisateur peut saisir « by Age (bin) » pour voir une forme compartimentée de la dimension sous forme de graphique à barres.

  • Imposer les réponses en histogrammes avec des paramètres de classe personnalisés dans Parlez aux données.
    La création de champs compartimentés à partir de mesures avec des tailles de classe personnalisées permet de mieux contrôler l'affichage de ces champs dans « Parlez aux données ». Dans l'exemple ci-dessous (Figure 7), l'utilisateur peut saisir « Fare as a histogram », et « Parlez aux données » utilise les paramètres de classe personnalisés à partir du champ « Fare (bin) » pour générer un histogramme.
Figure 6

Figure 6 : Dans le volet Données, cliquez avec le bouton droit (ou cliquez en maintenant la touche Ctrl enfoncée) et sélectionnez Créer > Classes.

Figure 7 Visualization output of the expression, “Fare as a histogram” with custom bin sizes.

Figure 7 : Visualisation résultant de l'expression « Fare as a histogram » avec des tailles de classe personnalisées.

Choisissez des noms de champs uniques et explicites

Pour rendre la source de données plus facile à comprendre par les utilisateurs et pour permettre à ces derniers de trouver plus facilement des réponses à leurs questions, faites attention au nom que vous attribuez aux champs de votre source de données.

Voici comment optimiser l'expérience utilisateur :

Créez des alias parlants pour les valeurs des champs. Dans Tableau Desktop, vous pouvez créer des noms de champs intuitifs avec des alias (par exemple, « CustID » désigne « Customer ID »). Il s'agit d'une recommandation habituelle pour la curation des données. Pour « Parlez aux données », vous pouvez aller plus loin en ajoutant des synonymes. Un utilisateur peut par exemple utiliser « Customer Number » pour « Customer ID ». Dans une telle situation, vous pouvez ajouter ces synonymes à « Parlez aux données » pour mieux gérer les questions de ces utilisateurs.

Différenciez les attributs. Attribuez des noms uniques aux attributs dans votre source de données pour optimiser l'expérience utilisateur dans « Parlez aux données ». Si une expression contient une ambiguïté, l'outil recherche les chaînes qui correspondent approximativement, à un caractère près (« fuzzy matching »). « Parlez aux données » affiche ensuite ces multiples correspondances sous forme d'options. Dans l'exemple ci-dessous (Figure 8), la source de données contient plusieurs attributs avec le terme « Sales ». Néanmoins, si l'utilisateur saisit simplement « sales », seuls trois attributs sont détectés, et l'attribut « Sales Foo » présente une différence de plus d'un caractère.

Figure 8

Figure 8

Il est également recommandé de nommer les attributs qui ont une pertinence sémantique pour le domaine de la source de données, pour que les questions posées dans « Parlez aux données » soient intuitives pour l'analyse. Par exemple, « Number of Records » est devenu « Number of Earthquakes » et chaque enregistrement de la source de données correspond à un tremblement de terre (Figure 9).

Figure 9

Figure 9

Vérifiez les noms des champs. « Parlez aux données » filtre les valeurs en fonction des champs de la source de données. Évitez d'utiliser des valeurs (des nombres, des dates ou des valeurs booléennes, comme « true » ou « false ») pour renommer les champs, afin d'éviter que l'outil « Parlez aux données » interprète mal ces champs. De même, pour des raisons de performance, « Parlez aux données » n'indexe pas les champs qui contiennent des expressions analytiques prises en charge. Par exemple, évitez les noms « Average », « Sales in 2015 » ou « Most Products Sold ».

Utilisez le géocodage pour les champs géographiques. Pour les champs ayant un rôle géographique, assurez-vous que les valeurs des données sont correctement géocodées. Ils seront ainsi reconnus comme attributs géographiques par « Parlez aux données » et identifiés par une icône dans le volet Données (Figure 10). Ces attributs prennent en charge les formulations du type « Where are the highest fire fatalities? ». Le système reconnaît l'élément « Where », qui indique l'utilisation d'une carte, et suggère un attribut géographique comme « County ».

Figure 10

Ajoutez les champs calculés pertinents

« Parlez aux données » n'est pas en mesure de créer des calculs à la volée. Vous devez ajouter préalablement tous les calculs nécessaires dans votre source de données. Par exemple, en créant un champ calculé « Total Compensation », qui additionne le salaire minimum du champ « Base (Variable ») aux commissions du champ « Commission (Variable) », vous permettez aux utilisateurs de poser des questions pour déterminer la rémunération totale pour chaque commercial (Figures 11 et 12).

Figure 11 : Pour créer un champ calculé, sélectionnez Analyse > Créer un champ calculé. Pour modifier un champ calculé, cliquez dessus avec le bouton droit dans le volet Données et choisissez Modifier.

Figure 12

Figure 12 : En créant un champ calculé « Total Compensation », qui additionne le salaire minimum du champ « Base (Variable ») aux commissions du champ « Commission (Variable) », vous permettez aux utilisateurs de poser des questions pour déterminer la rémunération totale pour chaque commercial.

Enrichissez vos données en ajoutant des synonymes

Vous pouvez définir des synonymes pour les champs d'une source de données depuis le volet des champs dans « Parlez aux données ». Imaginons que vous disposiez d'une source de données sur les achats de véhicules, avec l'un des champs intitulé « New Vehicle Model ». En ajoutant les synonymes « vehicle purchased » et « car » pour ce champ, vous permettez à l'outil de prendre en charge des formulations du type « vehicles purchased by city » (Figure 13).

Figure 13 : Pour ajouter des synonymes à des champs spécifiques, survolez le champ souhaité, cliquez sur la flèche vers le bas et choisissez Modifier les synonymes. Saisissez les synonymes en les séparant par une virgule.

Accès aux données et gouvernance

« Parlez aux données » applique les mêmes mesures de sécurité et de gouvernance que celles que vous connaissez dans Tableau Server ou Tableau Online. Les sections suivantes décrivent l'utilisation des sources de données certifiées avec « Parlez aux données » et le contrôle des accès à cet outil en entreprise.


Définissez les rôles et les droits des utilisateurs

Une fois la curation des données terminée, vous pouvez décider qui peut accéder à l'outil « Parlez aux données ». Pour l'utiliser, vos utilisateurs doivent avoir les rôles Creator ou Explorer et avoir accès à la création Web sur Tableau Server ou Tableau Online. Les administrateurs de Tableau Server peuvent définir des autorisations au niveau des sites pour déterminer quels utilisateurs ont accès à la création Web (Figure 14). Les analystes et les utilisateurs métier pourront tirer parti de « Parlez aux données » pour explorer facilement et rapidement une source de données et découvrir de précieuses informations exploitables à la volée.

Découvrez plus en détail les autorisations pour la création Web.

Figure 14 : Définissez des autorisations au niveau des sites pour déterminer quels utilisateurs ont accès à la création Web (et à « Parlez aux données »).

Vérifiez les sources de données certifiées

Les utilisateurs peuvent certifier une source de données sur Tableau Server ou Tableau Online pour indiquer qu'elle est fiable et correctement préparée. Cette certification n'est pas propre à « Parlez aux données ». Néanmoins, si un utilisateur veut spécifiquement désactiver « Parlez aux données » pour une source de données, il peut le faire avec les paramètres de cette source de données dans l'interface utilisateur de Tableau Server (Figures 15 et 16).

Figure 15

Figure 16 : Si nécessaire, vous pouvez désactiver « Parlez aux données » pour certaines sources de données, dans la section correspondante de l'interface de Tableau Server ou Tableau Online.

Avec « Parlez aux données », tout le monde dans l'entreprise peut poser des questions en s'appuyant sur les données. En suivant ces recommandations, vous pourrez préparer vos données de manière à faciliter l'analyse en langage naturel.