Preparación de datos para la interacción con el lenguaje natural en Pregunte a los datos

Pregunte a los datos, la funcionalidad de lenguaje natural de Tableau, está diseñada para funcionar con cualquier fuente de datos publicada en Tableau Server o Tableau Cloud. Sin embargo, para aprovechar al máximo todos los beneficios de Pregunte a los datos, las fuentes de datos deben estar optimizadas. De esta manera, disfrutará de una conversación de análisis ideal.

Para ayudarlo a implementar Pregunte a los datos en su organización, desarrollamos esta guía acerca de cómo optimizar las fuentes de datos a fin de lograr una experiencia de usuario satisfactoria.

Comprenda las preguntas de las personas

Pregunte a los datos aprovecha el contexto para determinar los atributos del tipo de datos en cuestión. Además, divide los enunciados en secciones, es decir, en frases que contienen expresiones temporales, espaciales o numéricas, para comprender la intención de la consulta. Luego, aplica las prácticas recomendadas de análisis visual a fin de ofrecer la visualización más adecuada para satisfacer la intención del usuario.

Supongamos que un usuario desea hacer preguntas acerca de una fuente de datos publicada con información sobre las ventas desde el comienzo del año hasta la fecha. Puede escribir “what is the profit over time?” (¿Cuáles son los beneficios en el tiempo?) en el cuadro de entrada de Pregunte a los datos. En este caso, Pregunte a los datos identifica la intención del usuario y agrega “Profit” (Beneficios) como suma, la agregación predeterminada. Además, relaciona “time” (tiempo) con el atributo “Order Date” (Fecha de pedido) en la fuente de datos, agregado al nivel de año (Figura 1).

Figure 1  Visualization output from the expression “what is the profit over time?”

Figura 1: Visualización de respuesta a la pregunta “what is the profit over time?” (¿Cuáles son los beneficios en el tiempo?)

El algoritmo de inferencias de Pregunte a los datos resulta más eficaz cuando todos los atributos corresponden al tipo de datos esperado. En este ejemplo, el tipo de datos esperado es Date (Fecha), el cual genera la visualización de serie temporal (tendencia en el tiempo). Las medidas se deben especificar con la agregación predeterminada y el formato numérico esperados.

Con la funcionalidad Pregunte a los datos, puede hacer preguntas en inglés acerca de campos calculados, campos de columnas, campos de grupos y campos de agrupaciones en las fuentes de datos publicadas. Por el momento, Pregunte a los datos no es compatible con conjuntos de datos, parámetros, campos combinados, conjuntos combinados ni jerarquías. En Tableau, estamos trabajando para ofrecer compatibilidad con estos tipos de campos en las próximas versiones.


Expresiones de análisis compatibles con Pregunte a los datos

Hay cinco tipos básicos de expresiones de análisis. Un enunciado está formado por una o más de estas expresiones.

Explore las siguientes expresiones de análisis compatibles con Pregunte a los datos.

Expresiones de agregación: los valores de varias filas se agrupan según una función matemática para ofrecer un único valor. Por ejemplo, “Sum of Sales” (Suma de Ventas), “Average Profit” (Promedio de Beneficios) o “Count of Customers” (Recuento de Clientes).

Expresiones de grupo: se trata de expresiones que particionan los datos en categorías que se muestran en una visualización de datos, por ejemplo, “by Region” (Por Región) o “by Sales” (Por Ventas).

Expresiones de ordenación: son expresiones que organizan las filas de datos en un orden determinado, como ascendente, descendente o alfabético. Por ejemplo, “sort Products in ascending order by sum of Profit” (ordenar Productos en orden ascendente según la suma de Beneficios) u “sort Customer Name in alphabetical order” (ordenar Nombre del cliente en orden alfabético).

Expresiones de filtro: estas expresiones indican un subconjunto del dominio del campo. Pueden ser filtros numéricos, como “sum of Sales at least $2,000” (suma de Ventas de al menos USD 2000), o filtros de categoría, como “Customer Name starts with John” (Nombre del cliente comienza por ‘John’) o “Category contains Manufacturing” (Categoría incluye ‘Fabricación’).

Expresiones de límite: estas expresiones, similares a los filtros, indican un subconjunto del dominio del campo limitado a un subconjunto de filas. Por ejemplo, “top 5 Wineries by sum of Sales” (5 Bodegas principales según la suma de Ventas) o “bottom Category by average Profit” (Categoría inferior según el promedio de Beneficios).

Obtendrá más información acerca de las funciones de análisis compatibles aquí.

Pregunte a los datos incluye algunos sinónimos comunes de estos conceptos, como por ejemplo “from largest” (desde el mayor) para el orden descendente o “mean” (media) para el promedio. Además, incorpora algunas abreviaciones, como “cnt” para el recuento, “avg” para el promedio, etc. Siga avanzando y descubra cómo agregar sinónimos a Pregunte a los datos.

Pregunte a los datos representa las expresiones temporales, es decir, las expresiones relacionadas con el tiempo, como absolutas o relativas. Es compatible con los conceptos de tiempo absoluto, a través de expresiones como “starts in” (comienza), “ends in” (finaliza) y “between” (entre). Asimismo, admite conceptos de tiempo relativo, mediante expresiones como “last 3 years” (últimos 3 años), “next quarter” (siguiente trimestre), “this month” (este mes), “today” (hoy) y “yesterday” (ayer).

Prepare las fuentes de datos para una conversación de análisis ideal

Pregunte a los datos está diseñada para funcionar con cualquier fuente de datos publicada en Tableau Server o Tableau Online. A fin de ofrecer opciones predeterminadas útiles para las expresiones de filtro, Pregunte a los datos enriquece el modelo semántico con metadatos acerca de los campos. Si desea obtener medidas numéricas continuas, estos metadatos incluyen información estadística, como “minimum” (mínimo), “maximum” (máximo) y “average” (promedio). Para los campos de texto, los metadatos contienen los valores más frecuentes.

Cuando un usuario escribe una expresión de filtro en Pregunte a los datos, estos metadatos permiten que el sistema proporcione recomendaciones para los valores. Por ejemplo, en la figura a continuación, “$4” (USD 4) se indica como el valor mínimo en los metadatos para el atributo “Price” (Precio) y el filtro “at least” (al menos).

A user types a filter expression in Ask Data, this metadata allows the system to provide defaults for values.

Figura 2: “$4” (USD 4) se indica como el valor mínimo en los metadatos para el atributo “Price” (Precio) y el filtro “at least” (al menos).

En el caso de las fuentes de datos con seguridad de nivel de fila, Pregunte a los datos no almacena metadatos, ni los indexa ni genera perfiles para los campos del modelo semántico. Si no cuenta con metadatos, Pregunte a los datos no puede proporcionar opciones predeterminadas de filtro, como se muestra en la Figura 2. Tampoco puede reconocer conceptos de comparación, como “cheap” (económico) o “high” (alto), ni mostrar datos del perfil en las descripciones emergentes en el panel de datos.

Sin embargo, entendemos que existen requisitos de seguridad de nivel de fila para algunas fuentes de datos. En estas circunstancias, Pregunte a los datos no puede indexar las fuentes de datos. Aun así, puede aprovechar los beneficios de Pregunte a los datos si especifica los valores exactos que desea filtrar y los escribe entre comillas.

Por ejemplo, imaginemos que desea ver “bodegas en california que tienen pinot noir”. Si la fuente de datos tuviera seguridad en el nivel de fila, deberá escribir la consulta de la siguiente manera:

Wineries filter State to “California” filter Variety to “Pinot Noir” (Bodegas, filtrar Estado por California, filtrar Variedad por Pinot Noir)

No es necesario usar comillas para fechas, valores booleanos o números. Pregunte a los datos puede interpretar de forma automática estos tipos de valores y hacerlos coincidir con los campos correspondientes.

Si su organización cuenta con fuentes de datos certificadas publicadas, los equipos las pueden utilizar con Pregunte a los datos. Sin embargo, le recomendamos que genere fuentes de datos adicionales para los usuarios finales o que adapte las fuentes existentes para que el análisis con Pregunte a los datos resulte más fácil. A fin de aprovechar al máximo esta funcionalidad, tenga en cuenta los siguientes factores en el momento de optimizar los datos.



Optimizar los datos con el usuario final en mente

Los usuarios de Pregunte a los datos logran responder sus preguntas de manera más eficaz cuando un administrador o un analista adecua los datos. Ellos saben cómo hay que preparar los datos para el análisis y pueden anticipar el tipo de preguntas relativas a los datos que harán los usuarios con el lenguaje natural.

Obtendrá más información acerca de las prácticas recomendadas para optimizar una fuente de datos publicada aquí.

Para comenzar a adecuar los datos para Pregunte a los datos, primero, simplifique las fuentes de datos publicadas tanto como sea posible. Esto implica conservar un conjunto mínimo de campos acerca de los cuales los usuarios harán sus consultas con Pregunte a los datos. También implica eliminar u ocultar los campos innecesarios de la fuente de datos. Pregunte a los datos admite fuentes de datos de hasta 1000 campos; sin embargo, cuanto menor sea la ambigüedad, mejor. De este modo, el rendimiento general del sistema mejora y se aceleran los procesos de inicialización y análisis de los enunciados con lenguaje natural. Si la fuente de datos es lenta, para mejorar el rendimiento, use una extracción de datos con filtros en la fuente de datos, si es necesario.

Tenga en cuenta los siguientes factores en el momento de adecuar las fuentes de datos para las consultas con Pregunte a los datos.

Prepare los datos. Intente anticipar los tipos de preguntas que los usuarios querrán responder con la fuente de datos. Es posible que sea necesario dar forma a los datos, realizar operaciones de unión y llevar a cabo otras funciones de preparación de datos relacionadas a fin de adecuar los datos para responder estas preguntas esperadas.

Configure el valor predeterminado correcto del campo. Asigne a cada campo el tipo de datos correcto, por ejemplo, cadena, número, geográfico, fecha, fecha y hora, y booleano. Además, indique la función del campo de datos, por ejemplo, discreto o continuo, medida o dimensión. Para cada medida, determine las funciones de agregación predeterminadas. Por ejemplo, es posible que SUMA sea la opción predeterminada adecuada para “Sales” (Ventas), pero que PROMEDIO sea una mejor alternativa predeterminada para “Test Score” (Calificación del examen).

Defina el formato de número de porcentaje y de moneda. A fin de comprender ciertos conceptos coloquiales y habituales que los usuarios incluyen en sus consultas acerca de los datos, Pregunte a los datos incorpora conceptos como “high” (alto), “low” (bajo), “highest” (más alto), “lowest” (más bajo). Además, admite términos relacionados con la moneda, como “cheap” (económico) y “expensive” (caro), junto con sus respectivos sinónimos. Para que los enunciados como “show me the cheapest wineries in France” (mostrarme las bodegas más económicas en Francia) ofrezcan los resultados correctos, configure las medidas en la fuente de datos según el formato de moneda adecuado, como puede observar en las Figuras 3 y 4.

Figure 3   Set up measures in the data source with the appropriate currency format.

Figura 3: Configuración de las medidas en la fuente de datos según el formato de moneda adecuado

Figure 4   For the utterance “cheapest wineries in France,” the system infers a currency attribute ‘Price’ for the concept ‘cheapest’.  Ask Data infers a numeric range from the metadata for ‘Price’. Clicking on ‘cheapest’ refines the inferred numerical values.

Figura 4: Para el enunciado “cheapest wineries in France” (bodegas más económicas en Francia), el sistema deduce que se trata de un atributo de moneda, “Price” (Precio), para el concepto “cheapest” (más económico). Pregunte a los datos infiere un intervalo numérico a partir de los metadatos de “Price” (Precio). Seleccionar “cheapest” (más económico) reduce los valores numéricos inferidos.

Determine jerarquías lógicas. Esto permite que los usuarios exploren en mayor o menor profundidad las visualizaciones creadas con Pregunte a los datos. Además, se aplica a las dimensiones geográficas (por ejemplo, ciudades, estados, países), a las fechas y horas (por ejemplo, años, trimestres, meses) y a las dimensiones que dependen de una función (por ejemplo, categorías y subcategorías).

Cree campos agrupados significativos (con un tamaño de agrupación adecuado) para las variables cuantitativas en las siguientes situaciones:

  • Visualizar una versión agrupada de un campo que no es una medida en la fuente de datos.
    Por ejemplo, “Age” (Edad) es una dimensión numérica que no se puede representar como un histograma en Tableau y, por lo tanto, tampoco en Pregunte a los datos. Sin embargo, si se crea un campo agrupado para Age (Edad) en la fuente de datos, el usuario puede hacer una pregunta con la versión agrupada, tal como se muestra en la Figura 5.
Figure 5 A user can type “by Age (bin)” to view a binned form of the dimension as a bar chart.

Figura 5: El usuario puede escribir “by Age (bin)” (Por Edad (agrupación)) para ver la versión agrupada de la dimensión como un gráfico de barras.

  • Obtener respuestas como histogramas en Pregunte a los datos con una configuración personalizada de las agrupaciones.
    Crear campos agrupados de las medidas con un tamaño de agrupación personalizado permite controlar de manera más eficaz la manera en que se muestran estos campos en Pregunte a los datos. En el ejemplo a continuación (Figura 7), el usuario puede escribir “Fare as a histogram” (Tarifa como histograma). Pregunte a los datos usará la configuración personalizada de la agrupación del campo agrupado “Fare (bin)” (Tarifa (agrupación)) para generar el histograma.
Figure 6

Figura 6: En el panel Datos, haga clic con el botón secundario (presione Control y haga clic en Mac) y seleccione Crear y, luego, Agrupaciones.

Figure 7 Visualization output of the expression, “Fare as a histogram” with custom bin sizes.

Figura 7: Visualización como resultado de la expresión “Fare as a histogram” (Tarifa como histograma) con un tamaño de agrupación personalizado.

Asigne nombres únicos y significativos a los campos

Para que los usuarios finales puedan comprender mejor las fuentes de datos y aumentar las posibilidades de obtener las respuestas que necesitan con Pregunte a los datos, debe evaluar los nombres de los campos en la fuente de datos.

A fin de ofrecer una experiencia de usuario óptima, siga estos pasos.

Asigne alias relevantes a los valores de campos. En Tableau Desktop, los alias permiten crear nombres de campos fáciles de comprender, por ejemplo, “IDCte” para “ID de cliente”. Esta es una recomendación estándar para la optimización de datos. En Pregunte a los datos, puede ir más allá y agregar sinónimos. Por ejemplo, es posible que, internamente, las personas usen “Número de cliente” para referirse a “ID de cliente”. En estas situaciones, puede agregar estos sinónimos adicionales a Pregunte a los datos para facilitar las consultas de los usuarios.

Diferencie los atributos. Asignar nombres únicos a los atributos en la fuente de datos permite ofrecer una mejor experiencia de usuario en Pregunte a los datos. Si una expresión resulta ambigua, Pregunte a los datos identifica las cadenas que coinciden aproximadamente con un patrón en los datos, hasta con un carácter de diferencia. Esto también se conoce como coincidencias de valores similares en una cadena. Pregunte a los datos, luego, muestra estas diferentes coincidencias como opciones. En el ejemplo a continuación (Figura 8), aparecen en la fuente de datos varios atributos que contienen la palabra “Sales” (Ventas). Sin embargo, si el usuario tan solo escribe “sales” (ventas), este término coincidirá con tres atributos, ya que la palabra “sales” (ventas) y el atributo “Sales Foo” (Ventas de Foo) difieren en más de un carácter.

Figure 8

Figura 8

Además, se recomienda que los nombres de los atributos resulten significativos a nivel semántico para el dominio de la fuente de datos. De esta manera, las preguntas que realizan los usuarios en Pregunte a los datos resultarán intuitivas para la tarea de análisis en cuestión. Por ejemplo, el nombre “Number of Records” (Número de registros) se puede cambiar a “Number of Earthquakes” (Número de terremotos), ya que cada registro corresponde a un terremoto en la fuente de datos (Figura 9).

Figure 9

Figura 9

Revise los nombres de campos. Pregunte a los datos filtra los valores según los campos en la fuente de datos. Evite asignar a los campos nombres que representen valores. De esta manera, Pregunte a los datos no malinterpretará los campos de datos como valores. Por ejemplo, números, fechas o valores booleanos como “true” (verdadero) o “false” (falso). Además, para mejorar el rendimiento, Pregunte a los datos no indexa los campos que se superponen con las expresiones de análisis compatibles. Por ejemplo, evite usar nombres de campos como “Average” (Promedio), “Sales in 2015” (Ventas en 2015) o “Most Products Sold” (Mayoría de productos vendidos).

Geocodifique los campos geográficos. Para los campos con funciones geográficas, asegúrese de que los valores de datos estén correctamente geocodificados. Pregunte a los datos reconoce como atributos geográficos los campos cuyos valores están correctamente geocodificados. Esto se indica con un icono en el panel Datos (Figura 10). Estos atributos admiten enunciados como “where are the highest fire fatalities?” (¿Dónde ocurren más fallecimientos por incendios?). El sistema reconoce que la frase “where” (dónde) indica una ubicación y deduce un atributo geográfico válido, como “County” (Condado).

Figura 10

Agregue campos calculados relevantes

Pregunte a los datos no puede crear cálculos sobre la marcha; por lo tanto, debe agregar los cálculos previstos a la fuente de datos de antemano. Por ejemplo, crear un campo calculado llamado “Total Compensation” (Compensación total) que agrega el salario básico mínimo de “Base (Variable)” (Básico (variable)) y la comisión total de “Commission (Variable)” (Comisión (variable)) permite que los usuarios escriban preguntas como “what is the total compensation for each sales person?” (¿Cuál es la compensación total para cada vendedor?). (Figuras 11 y 12).

Figura 11: Para crear un campo calculado, seleccione Análisis y, luego, Crear campo calculado. Para editarlo, haga clic con el botón secundario en el campo calculado en el panel Datos y seleccione Editar.

Figure 12

Figura 12: Crear un campo calculado llamado “Total Compensation” (Compensación total) que agrega el salario básico mínimo de “Base (Variable)” (Básico (variable)) y la comisión total de “Commission (Variable)” (Comisión (variable)) permite que los usuarios escriban preguntas como “what is the total compensation for each sales person?” (¿Cuál es la compensación total para cada vendedor?).

Optimizar los datos con sinónimos

En el panel de campos de Pregunte a los datos, puede definir sinónimos para los campos de una fuente de datos. Por ejemplo, supongamos que tiene una fuente de datos con información acerca de la compra de automóviles y uno de los campos tiene el nombre “New Vehicle Model” (Nuevo modelo de automóvil). Agregar sinónimos como “vehicle purchased” (automóviles comprados) o “car” (vehículos) para el campo “New Vehicle Model” (Nuevo modelo de automóvil) permite que los usuarios escriban enunciados con lenguaje natural como “vehicles purchased by city” (Automóviles comprados por ciudad) (Figura 13).

Figura 13: Para agregar sinónimos a un campo de datos específico, sitúe el cursor sobre un campo de la fuente de datos, haga clic en la flecha hacia abajo y seleccione Editar sinónimos. Escriba los sinónimos para el nombre del campo, separados por comas.

Permita el acceso a los datos y garantice la gobernanza

Pregunte a los datos cuenta con las mismas medidas de seguridad y gobernanza conocidas de Tableau Server o Tableau Online. En las siguientes secciones se ofrece más información acerca del uso de fuentes de datos certificadas con Pregunte a los datos. Además, se explora cómo controlar el acceso a Pregunte a los datos en la organización.


Establezca las funciones y los permisos

Una vez que los datos están listos para Pregunte a los datos, puede controlar qué usuarios tendrán acceso a la funcionalidad. Para usar Pregunte a los datos, los usuarios deben contar con licencias Creator o Explorer y tener acceso de creación web en Tableau Server o Tableau Online. Los administradores de Tableau Server pueden especificar los permisos a nivel del sitio a fin de determinar qué usuarios tienen acceso a las funcionalidades de creación web, tal como se muestra en la Figura 14. Tanto los analistas como los usuarios corporativos podrán descubrir el valor de Pregunte a los datos de inmediato. Se trata de una manera fácil y rápida de explorar una fuente de datos y obtener información útil sobre la marcha.

Obtendrá más información acerca de los permisos de creación web aquí.

Figura 14: Especifique permisos a nivel del sitio a fin de determinar qué usuarios tienen acceso a las funcionalidades de creación web (incluida Pregunte a los datos).

Revise las fuentes de datos certificadas

Los usuarios pueden certificar una fuente de datos en Tableau Server o Tableau Online a fin de indicar que los datos son confiables y están optimizados. Esta certificación no es específica de la funcionalidad, es decir, no existe una certificación específica para Pregunte a los datos. Sin embargo, si un usuario desea deshabilitar Pregunte a los datos para una fuente de datos determinada, puede hacerlo a través de la configuración de la fuente de datos en la interfaz de usuario de Tableau Server. Consulte las Figuras 15 y 16.

Figura 15

Figura 16: Si lo desea, puede deshabilitar Pregunte a los datos para ciertas fuentes de datos en la sección de detalles de fuente de datos de Tableau Server o Tableau Online.

Pregunte a los datos permite que todos los miembros de la organización puedan hacer preguntas acerca de los datos. Con estas pautas para optimizar los datos, podrá prepararlos para una experiencia de usuario ideal con lenguaje natural.