Preparación de datos para la interacción con el lenguaje natural en Pregunte a los datos
Pregunte a los datos, la funcionalidad de lenguaje natural de Tableau, está diseñada para funcionar con cualquier fuente de datos publicada en Tableau Server o Tableau Cloud. Sin embargo, para aprovechar al máximo todos los beneficios de Pregunte a los datos, las fuentes de datos deben estar optimizadas. De esta manera, disfrutará de una conversación de análisis ideal.
Para ayudarlo a implementar Pregunte a los datos en su organización, desarrollamos esta guía acerca de cómo optimizar las fuentes de datos a fin de lograr una experiencia de usuario satisfactoria.
Comprenda las preguntas de las personas
Pregunte a los datos aprovecha el contexto para determinar los atributos del tipo de datos en cuestión. Además, divide los enunciados en secciones, es decir, en frases que contienen expresiones temporales, espaciales o numéricas, para comprender la intención de la consulta. Luego, aplica las prácticas recomendadas de análisis visual a fin de ofrecer la visualización más adecuada para satisfacer la intención del usuario.
Supongamos que un usuario desea hacer preguntas acerca de una fuente de datos publicada con información sobre las ventas desde el comienzo del año hasta la fecha. Puede escribir “what is the profit over time?” (¿Cuáles son los beneficios en el tiempo?) en el cuadro de entrada de Pregunte a los datos. En este caso, Pregunte a los datos identifica la intención del usuario y agrega “Profit” (Beneficios) como suma, la agregación predeterminada. Además, relaciona “time” (tiempo) con el atributo “Order Date” (Fecha de pedido) en la fuente de datos, agregado al nivel de año (Figura 1).
El algoritmo de inferencias de Pregunte a los datos resulta más eficaz cuando todos los atributos corresponden al tipo de datos esperado. En este ejemplo, el tipo de datos esperado es Date (Fecha), el cual genera la visualización de serie temporal (tendencia en el tiempo). Las medidas se deben especificar con la agregación predeterminada y el formato numérico esperados.
Con la funcionalidad Pregunte a los datos, puede hacer preguntas en inglés acerca de campos calculados, campos de columnas, campos de grupos y campos de agrupaciones en las fuentes de datos publicadas. Por el momento, Pregunte a los datos no es compatible con conjuntos de datos, parámetros, campos combinados, conjuntos combinados ni jerarquías. En Tableau, estamos trabajando para ofrecer compatibilidad con estos tipos de campos en las próximas versiones.
Expresiones de análisis compatibles con Pregunte a los datos
Hay cinco tipos básicos de expresiones de análisis. Un enunciado está formado por una o más de estas expresiones.
Explore las siguientes expresiones de análisis compatibles con Pregunte a los datos.
Pregunte a los datos incluye algunos sinónimos comunes de estos conceptos, como por ejemplo “from largest” (desde el mayor) para el orden descendente o “mean” (media) para el promedio. Además, incorpora algunas abreviaciones, como “cnt” para el recuento, “avg” para el promedio, etc. Siga avanzando y descubra cómo agregar sinónimos a Pregunte a los datos.
Pregunte a los datos representa las expresiones temporales, es decir, las expresiones relacionadas con el tiempo, como absolutas o relativas. Es compatible con los conceptos de tiempo absoluto, a través de expresiones como “starts in” (comienza), “ends in” (finaliza) y “between” (entre). Asimismo, admite conceptos de tiempo relativo, mediante expresiones como “last 3 years” (últimos 3 años), “next quarter” (siguiente trimestre), “this month” (este mes), “today” (hoy) y “yesterday” (ayer).
Prepare las fuentes de datos para una conversación de análisis ideal
Pregunte a los datos está diseñada para funcionar con cualquier fuente de datos publicada en Tableau Server o Tableau Online. A fin de ofrecer opciones predeterminadas útiles para las expresiones de filtro, Pregunte a los datos enriquece el modelo semántico con metadatos acerca de los campos. Si desea obtener medidas numéricas continuas, estos metadatos incluyen información estadística, como “minimum” (mínimo), “maximum” (máximo) y “average” (promedio). Para los campos de texto, los metadatos contienen los valores más frecuentes.
Cuando un usuario escribe una expresión de filtro en Pregunte a los datos, estos metadatos permiten que el sistema proporcione recomendaciones para los valores. Por ejemplo, en la figura a continuación, “$4” (USD 4) se indica como el valor mínimo en los metadatos para el atributo “Price” (Precio) y el filtro “at least” (al menos).
En el caso de las fuentes de datos con seguridad de nivel de fila, Pregunte a los datos no almacena metadatos, ni los indexa ni genera perfiles para los campos del modelo semántico. Si no cuenta con metadatos, Pregunte a los datos no puede proporcionar opciones predeterminadas de filtro, como se muestra en la Figura 2. Tampoco puede reconocer conceptos de comparación, como “cheap” (económico) o “high” (alto), ni mostrar datos del perfil en las descripciones emergentes en el panel de datos.
Sin embargo, entendemos que existen requisitos de seguridad de nivel de fila para algunas fuentes de datos. En estas circunstancias, Pregunte a los datos no puede indexar las fuentes de datos. Aun así, puede aprovechar los beneficios de Pregunte a los datos si especifica los valores exactos que desea filtrar y los escribe entre comillas.
Por ejemplo, imaginemos que desea ver “bodegas en california que tienen pinot noir”. Si la fuente de datos tuviera seguridad en el nivel de fila, deberá escribir la consulta de la siguiente manera:
No es necesario usar comillas para fechas, valores booleanos o números. Pregunte a los datos puede interpretar de forma automática estos tipos de valores y hacerlos coincidir con los campos correspondientes.
Si su organización cuenta con fuentes de datos certificadas publicadas, los equipos las pueden utilizar con Pregunte a los datos. Sin embargo, le recomendamos que genere fuentes de datos adicionales para los usuarios finales o que adapte las fuentes existentes para que el análisis con Pregunte a los datos resulte más fácil. A fin de aprovechar al máximo esta funcionalidad, tenga en cuenta los siguientes factores en el momento de optimizar los datos.
Optimizar los datos con el usuario final en mente
Los usuarios de Pregunte a los datos logran responder sus preguntas de manera más eficaz cuando un administrador o un analista adecua los datos. Ellos saben cómo hay que preparar los datos para el análisis y pueden anticipar el tipo de preguntas relativas a los datos que harán los usuarios con el lenguaje natural.
Obtendrá más información acerca de las prácticas recomendadas para optimizar una fuente de datos publicada aquí.
Para comenzar a adecuar los datos para Pregunte a los datos, primero, simplifique las fuentes de datos publicadas tanto como sea posible. Esto implica conservar un conjunto mínimo de campos acerca de los cuales los usuarios harán sus consultas con Pregunte a los datos. También implica eliminar u ocultar los campos innecesarios de la fuente de datos. Pregunte a los datos admite fuentes de datos de hasta 1000 campos; sin embargo, cuanto menor sea la ambigüedad, mejor. De este modo, el rendimiento general del sistema mejora y se aceleran los procesos de inicialización y análisis de los enunciados con lenguaje natural. Si la fuente de datos es lenta, para mejorar el rendimiento, use una extracción de datos con filtros en la fuente de datos, si es necesario.
Tenga en cuenta los siguientes factores en el momento de adecuar las fuentes de datos para las consultas con Pregunte a los datos.
Prepare los datos. Intente anticipar los tipos de preguntas que los usuarios querrán responder con la fuente de datos. Es posible que sea necesario dar forma a los datos, realizar operaciones de unión y llevar a cabo otras funciones de preparación de datos relacionadas a fin de adecuar los datos para responder estas preguntas esperadas.
Configure el valor predeterminado correcto del campo. Asigne a cada campo el tipo de datos correcto, por ejemplo, cadena, número, geográfico, fecha, fecha y hora, y booleano. Además, indique la función del campo de datos, por ejemplo, discreto o continuo, medida o dimensión. Para cada medida, determine las funciones de agregación predeterminadas. Por ejemplo, es posible que SUMA sea la opción predeterminada adecuada para “Sales” (Ventas), pero que PROMEDIO sea una mejor alternativa predeterminada para “Test Score” (Calificación del examen).
Defina el formato de número de porcentaje y de moneda. A fin de comprender ciertos conceptos coloquiales y habituales que los usuarios incluyen en sus consultas acerca de los datos, Pregunte a los datos incorpora conceptos como “high” (alto), “low” (bajo), “highest” (más alto), “lowest” (más bajo). Además, admite términos relacionados con la moneda, como “cheap” (económico) y “expensive” (caro), junto con sus respectivos sinónimos. Para que los enunciados como “show me the cheapest wineries in France” (mostrarme las bodegas más económicas en Francia) ofrezcan los resultados correctos, configure las medidas en la fuente de datos según el formato de moneda adecuado, como puede observar en las Figuras 3 y 4.
Determine jerarquías lógicas. Esto permite que los usuarios exploren en mayor o menor profundidad las visualizaciones creadas con Pregunte a los datos. Además, se aplica a las dimensiones geográficas (por ejemplo, ciudades, estados, países), a las fechas y horas (por ejemplo, años, trimestres, meses) y a las dimensiones que dependen de una función (por ejemplo, categorías y subcategorías).
Cree campos agrupados significativos (con un tamaño de agrupación adecuado) para las variables cuantitativas en las siguientes situaciones:
Asigne nombres únicos y significativos a los campos
Para que los usuarios finales puedan comprender mejor las fuentes de datos y aumentar las posibilidades de obtener las respuestas que necesitan con Pregunte a los datos, debe evaluar los nombres de los campos en la fuente de datos.
A fin de ofrecer una experiencia de usuario óptima, siga estos pasos.
Asigne alias relevantes a los valores de campos. En Tableau Desktop, los alias permiten crear nombres de campos fáciles de comprender, por ejemplo, “IDCte” para “ID de cliente”. Esta es una recomendación estándar para la optimización de datos. En Pregunte a los datos, puede ir más allá y agregar sinónimos. Por ejemplo, es posible que, internamente, las personas usen “Número de cliente” para referirse a “ID de cliente”. En estas situaciones, puede agregar estos sinónimos adicionales a Pregunte a los datos para facilitar las consultas de los usuarios.
Diferencie los atributos. Asignar nombres únicos a los atributos en la fuente de datos permite ofrecer una mejor experiencia de usuario en Pregunte a los datos. Si una expresión resulta ambigua, Pregunte a los datos identifica las cadenas que coinciden aproximadamente con un patrón en los datos, hasta con un carácter de diferencia. Esto también se conoce como coincidencias de valores similares en una cadena. Pregunte a los datos, luego, muestra estas diferentes coincidencias como opciones. En el ejemplo a continuación (Figura 8), aparecen en la fuente de datos varios atributos que contienen la palabra “Sales” (Ventas). Sin embargo, si el usuario tan solo escribe “sales” (ventas), este término coincidirá con tres atributos, ya que la palabra “sales” (ventas) y el atributo “Sales Foo” (Ventas de Foo) difieren en más de un carácter.
Además, se recomienda que los nombres de los atributos resulten significativos a nivel semántico para el dominio de la fuente de datos. De esta manera, las preguntas que realizan los usuarios en Pregunte a los datos resultarán intuitivas para la tarea de análisis en cuestión. Por ejemplo, el nombre “Number of Records” (Número de registros) se puede cambiar a “Number of Earthquakes” (Número de terremotos), ya que cada registro corresponde a un terremoto en la fuente de datos (Figura 9).
Revise los nombres de campos. Pregunte a los datos filtra los valores según los campos en la fuente de datos. Evite asignar a los campos nombres que representen valores. De esta manera, Pregunte a los datos no malinterpretará los campos de datos como valores. Por ejemplo, números, fechas o valores booleanos como “true” (verdadero) o “false” (falso). Además, para mejorar el rendimiento, Pregunte a los datos no indexa los campos que se superponen con las expresiones de análisis compatibles. Por ejemplo, evite usar nombres de campos como “Average” (Promedio), “Sales in 2015” (Ventas en 2015) o “Most Products Sold” (Mayoría de productos vendidos).
Geocodifique los campos geográficos. Para los campos con funciones geográficas, asegúrese de que los valores de datos estén correctamente geocodificados. Pregunte a los datos reconoce como atributos geográficos los campos cuyos valores están correctamente geocodificados. Esto se indica con un icono en el panel Datos (Figura 10). Estos atributos admiten enunciados como “where are the highest fire fatalities?” (¿Dónde ocurren más fallecimientos por incendios?). El sistema reconoce que la frase “where” (dónde) indica una ubicación y deduce un atributo geográfico válido, como “County” (Condado).
Agregue campos calculados relevantes
Pregunte a los datos no puede crear cálculos sobre la marcha; por lo tanto, debe agregar los cálculos previstos a la fuente de datos de antemano. Por ejemplo, crear un campo calculado llamado “Total Compensation” (Compensación total) que agrega el salario básico mínimo de “Base (Variable)” (Básico (variable)) y la comisión total de “Commission (Variable)” (Comisión (variable)) permite que los usuarios escriban preguntas como “what is the total compensation for each sales person?” (¿Cuál es la compensación total para cada vendedor?). (Figuras 11 y 12).
Optimizar los datos con sinónimos
En el panel de campos de Pregunte a los datos, puede definir sinónimos para los campos de una fuente de datos. Por ejemplo, supongamos que tiene una fuente de datos con información acerca de la compra de automóviles y uno de los campos tiene el nombre “New Vehicle Model” (Nuevo modelo de automóvil). Agregar sinónimos como “vehicle purchased” (automóviles comprados) o “car” (vehículos) para el campo “New Vehicle Model” (Nuevo modelo de automóvil) permite que los usuarios escriban enunciados con lenguaje natural como “vehicles purchased by city” (Automóviles comprados por ciudad) (Figura 13).
Permita el acceso a los datos y garantice la gobernanza
Pregunte a los datos cuenta con las mismas medidas de seguridad y gobernanza conocidas de Tableau Server o Tableau Online. En las siguientes secciones se ofrece más información acerca del uso de fuentes de datos certificadas con Pregunte a los datos. Además, se explora cómo controlar el acceso a Pregunte a los datos en la organización.
Establezca las funciones y los permisos
Una vez que los datos están listos para Pregunte a los datos, puede controlar qué usuarios tendrán acceso a la funcionalidad. Para usar Pregunte a los datos, los usuarios deben contar con licencias Creator o Explorer y tener acceso de creación web en Tableau Server o Tableau Online. Los administradores de Tableau Server pueden especificar los permisos a nivel del sitio a fin de determinar qué usuarios tienen acceso a las funcionalidades de creación web, tal como se muestra en la Figura 14. Tanto los analistas como los usuarios corporativos podrán descubrir el valor de Pregunte a los datos de inmediato. Se trata de una manera fácil y rápida de explorar una fuente de datos y obtener información útil sobre la marcha.
Obtendrá más información acerca de los permisos de creación web aquí.
Revise las fuentes de datos certificadas
Los usuarios pueden certificar una fuente de datos en Tableau Server o Tableau Online a fin de indicar que los datos son confiables y están optimizados. Esta certificación no es específica de la funcionalidad, es decir, no existe una certificación específica para Pregunte a los datos. Sin embargo, si un usuario desea deshabilitar Pregunte a los datos para una fuente de datos determinada, puede hacerlo a través de la configuración de la fuente de datos en la interfaz de usuario de Tableau Server. Consulte las Figuras 15 y 16.
Pregunte a los datos permite que todos los miembros de la organización puedan hacer preguntas acerca de los datos. Con estas pautas para optimizar los datos, podrá prepararlos para una experiencia de usuario ideal con lenguaje natural.