Prácticas recomendadas para ordenar los datos con Tableau Prep
Los datos se pueden generar, capturar y almacenar en una variedad abrumadora de estructuras. Sin embargo, a la hora del análisis, no todos los formatos de datos se crean de la misma manera.
La preparación de datos es el proceso de limpiar los datos, cambiar las estructuras incorrectas y combinar varios conjuntos de datos para el análisis. Implica transformar la estructura de los datos, como filas y columnas, y limpiar elementos, como tipos de datos y valores. La rapidez y eficacia del proceso de preparación de datos tiene un impacto directo en el tiempo que se invierte en descubrir la información. La capacidad de comprender el alcance de los datos que está analizando y comprobar los cambios que realiza en ellos puede acelerar todo el proceso.
Piense en sus datos de manera integral
Antes de comenzar, es importante pensar en cómo se usarán los datos que está preparando. Comprender el contexto lo ayudará a determinar qué conjunto de datos usar y cuántos datos incorporar en la herramienta de preparación de datos. Por último, sabrá cómo estructurarlos y darles forma. Para comenzar, deberá responder algunas preguntas básicas:
¿Quién realizará el análisis?
Considere al usuario final del conjunto de datos. Por ejemplo, ¿es usted el único usuario que accederá a los datos y deberá comprenderlos para realizar un análisis profundo? ¿O bien usuarios con otras funciones utilizarán el conjunto de datos? Esto puede incluir, por ejemplo, un director de marketing que deba entender cuál es el rendimiento de una campaña a partir de determinadas métricas identificadas. En este último caso, es aconsejable reducir el conjunto de datos para abarcar solo esas medidas.
También es posible que la tabla de datos incluya el código de producto, pero que el director de marketing necesite conocer el nombre del producto. En ese caso, tendrá que unir los datos y las tablas para obtener la información necesaria. El público es un factor fundamental a la hora de preparar los datos, como sucede cuando se crean dashboards.
¿Qué tipo de preguntas se deben hacer y responder?
En el proceso de preparación de datos, es importante entender cómo las personas usarán el conjunto de datos final. Por ejemplo, si lo harán para análisis complejos o resúmenes rápidos. Este factor condiciona el proceso de preparación de datos en gran medida, ya que determina el nivel de esfuerzo y de detalle.
Con frecuencia, comprender las prioridades estratégicas del negocio le permite predecir la mayoría de las preguntas comunes que harán las personas. No obstante, es muy probable que surjan preguntas inesperadas. Cuando prepara un conjunto de datos, debe haber un equilibrio entre facilitar la respuesta a las preguntas inmediatas y permitir una exploración más profunda. Por ejemplo, un usuario puede observar la tendencia de ventas durante los últimos seis meses. Sin embargo, explorar un pico en particular en una semana determinada requiere un análisis más en profundidad y la granularidad diaria de los datos.
¿Dónde se encuentran los datos?
Para analizar esta pregunta es necesario considerar algunas cuestiones básicas. ¿Cuenta con los permisos necesarios para acceder a la fuente de datos? ¿Los datos tienen la forma adecuada? En otras palabras, una vez incorporados los datos en Tableau, ¿podrá realizar el análisis que desea? Es necesario abordar ambas preguntas antes de comenzar el proceso de preparación.
Para obtener más información sobre cómo estructurar los datos para el análisis en Tableau Desktop, visite la página de la ayuda en línea.
Una vez que pueda acceder a los datos necesarios, tendrá que determinar dónde están ubicados. Hágase estas preguntas: ¿Los datos se encuentran en una única tabla o en varias tablas de una misma base de datos? Es posible que deba combinar varias bases de datos para llegar al núcleo de sus preguntas. O, si necesita una vista más sólida, quizás deba incorporar una fuente de datos externa. Por ejemplo, imaginemos que está analizando calificaciones de exámenes de estudiantes en su distrito y desea ver cómo estas se relacionan con la situación socioeconómica. En ese caso, puede integrar datos del censo. Con frecuencia, es necesario incorporar fuentes de datos externas para ver toda la historia.
Conozca la estructura básica de sus datos
Ahora que comprende cómo se usarán los datos, quién los utilizará y dónde se encuentran, es fundamental entender cuál es su estructura. Nunca realizaría una remodelación de su hogar sin conocer antes la ubicación de los muros de carga. De la misma forma, no es aconsejable comenzar la preparación de datos sin saber qué campos dependen de otros o cuáles se relacionan entre sí, cómo se introdujeron los datos (es decir, de forma manual o automática) o cuál es el nivel de detalle. Conocer la estructura de los datos le permite diseñar un plan antes de comenzar con el proceso de preparación.
Sepa qué busca
Antes de incorporar los datos en una herramienta de preparación de datos, es importante entender con qué está trabajando. Además, debe saber si está viendo todo el conjunto de datos o solo un subconjunto. También es posible que deba explorar los datos antes de comenzar a limpiarlos.
Ajuste el tamaño de muestra
Cuando se conecte a un conjunto de datos de gran tamaño, seguramente querrá limitarlo a una muestra de los datos. De esa forma, puede aumentar la velocidad de la preparación de datos y optimizar el rendimiento. En ocasiones, en cambio, querrá ver todo el conjunto de datos. Tableau Prep también le permite hacerlo. Si no puede resolver la tarea de preparación de datos con una muestra, pruebe las siguientes alternativas:
- Aumentar el tamaño de muestra de los datos. Regrese al paso de entrada de datos y ajuste el número de filas de la muestra. Puede aumentar la cantidad de filas o incluir todos los datos. Sin embargo, tenga en cuenta que esto puede ralentizar el rendimiento. También debe tener en cuenta que si usa un número fijo de filas, se aplicarán los criterios que la base de datos subyacente usa como la forma más rápida de obtener las filas solicitadas (es decir, no necesariamente significa las primeras 1000 filas de la base de datos).
- Utilizar muestras aleatorias. De manera predeterminada, Tableau Prep calculará la cantidad óptima de filas que debe devolver en función del número total de campos del conjunto y los tipos de datos de esos campos. Las muestras aleatorias se generan en el nivel de la base de datos. Estas devuelven la cantidad de filas solicitadas. La base de datos analiza cada fila y devuelve una muestra. Esta opción no está disponible para todas las fuentes de datos. Además, puede tener un impacto en el rendimiento.
- Agregar un filtro de paso de entrada. Al incorporar un filtro en el paso de entrada, se asegura de que los datos que se extraen en el conjunto de datos sean relevantes para el análisis. Como consecuencia, obtiene una muestra más representativa y mejora el rendimiento al mismo tiempo.
Explore los datos
En primer lugar, es posible que quiera ver el número único de valores en un campo determinado. En el ejemplo que aparece a continuación, un vistazo rápido al encabezado de columna revela la cantidad de estados representados en el conjunto de datos. Tal vez quiera saber también cómo se relacionan los diferentes valores, a fin de poder detectar valores atípicos y problemas. En Tableau Prep, puede utilizar la función de resaltar para descubrir las relaciones que existen entre los campos. Cuando hace clic en un valor en el panel de perfil, restringe la vista de la cuadrícula de datos para mostrar los registros que tienen esos valores en el campo indicado. Tableau Prep resalta los valores en todos los campos y marca los valores relacionados en azul.
Elimine los datos innecesarios
Con el propósito de optimizar el rendimiento general del proceso de preparación de datos, incorpore en Tableau Prep solo aquellos campos que necesita para el análisis.
Imaginemos que está preparando un conjunto de datos que representa los datos de ventas y productos de su empresa. Sabe que, más adelante, incorporará este conjunto de datos en Tableau para analizar el rendimiento de ventas del año. En este caso, es posible que no necesite incorporar detalles sobre la fecha de envío de cada producto. Este dato no aporta mucha información sobre la venta o el motivo por el que el cliente compró el producto. No es más que una indicación de cuándo el producto salió del almacén. Por eso, puede borrar este detalle de la fuente de datos. Si, en algún momento durante la preparación, nota que hay un campo que ya no necesita, puede quitarlo durante el flujo de trabajo.
Sugerencia: Mientras explora el proceso de preparación, puede comenzar a dividir campos en varias columnas. Si no necesita la columna original que acaba de dividir, bórrela.
Filtrar los datos siempre permite ahorrar tiempo en el proceso. Además, lo ayuda a asegurarse de que está llevando a cabo el análisis correcto. Por ejemplo, si sabe que solo necesita ver los datos de ventas de los últimos dos años, filtre el campo de fecha con ese intervalo de tiempo. Otra alternativa es aplicar un filtro de fecha relativa. Es posible que haya datos irrelevantes o incorrectos que desea eliminar. Basta con hacer clic en un valor en el panel Datos y excluirlo. Puede hacer esto en cualquier momento del flujo de trabajo.
Revise y limpie
En Tableau, los tipos de datos tienen un impacto en los análisis. Por eso, es importante identificar adecuadamente cada campo antes de comenzar a analizar. Si bien puede modificar el alias, cambiar los tipos de datos, dividir campos y escribir cálculos en Tableau, es mucho más sencillo realizar estas acciones con anticipación. Esto es así especialmente cuando crea el conjunto de datos para otra persona.
Resulta fundamental entender la calidad de los datos de cada campo. Por ejemplo, los números de teléfono obtenidos a partir de una encuesta pueden tener varios formatos, en especial si incluye datos globales. Inspeccionar de forma manual miles de millones de valores únicos para lograr la uniformidad es una tarea a menudo tediosa y susceptible de generar errores. Poder identificar patrones y actualizar los datos en masa es sumamente útil para contar con un conjunto de datos más limpio. Asimismo, es aconsejable que utilice las funcionalidades incorporadas de Tableau Prep, como los pasos de limpieza rápida, que permiten borrar la puntuación, números, letras o espacios cortados. De este modo se ahorrará mucho tiempo y muchos dolores de cabeza al realizar este tipo de cambios.
Por ejemplo, si su campo de estado contiene “California” y “CA”, pero los demás valores tienen los nombres completos de los estados, puede cambiar los valores directamente. Como por arte de magia, los registros de “California” incluyen ahora las instancias de “CA”.
También existe la posibilidad de que la mayoría de los datos sean correctos con alguna excepción. Tableau Prep es una herramienta inteligente. Ayuda a estandarizar los valores de los datos. Para ello, emplea algoritmos que realizan el “trabajo pesado”. Supongamos que tiene una columna de datos donde los clientes especifican el nombre de su ciudad de origen. Después de desplazarse por la columna rápidamente, observa que hay varios errores de ortografía en la ciudad de Albuquerque. No es necesario que actualice cada uno de forma manual. Tableau Prep dispone de una funcionalidad incorporada que permite agrupar y reemplazar por pronunciación o caracteres comunes. Estas opciones utilizan algoritmos que simplifican el proceso de limpieza. O bien, si anticipa la falta de un valor, puede agregarlo de forma manual para que se incorpore cuando ejecute todo el conjunto de datos en el flujo de análisis. Si sabe que un campo se debe limpiar o filtrar, pero necesita algo que no está en la interfaz de usuario, puede usar un cálculo.
Conozca los resultados finales de los datos
Cuando comienza a preparar los datos, puede resultar abrumador determinar qué aspecto debe tener el conjunto de datos final. Tal vez necesite combinar varias fuentes de datos o invertir los datos de columnas a filas, a fin de que Tableau pueda evaluarlos adecuadamente.
Una forma de superar este desafío es imaginar qué aspecto debería tener el panel Datos de Tableau Desktop. ¿Tiene varias columnas con el mismo valor? ¿Un producto específico debe ocupar una única columna con las transacciones de ventas enumeradas abajo? ¿O bien todos los productos deben estar en campos individuales y las ventas en una columna separada? Posiblemente, la segunda opción sea la adecuada. Por eso, en este caso, una tabla dinámica es la elección correcta.
Si necesita combinar dos tablas, tendrá que aplicar una unión de columnas o de filas. Una unión de columnas le permite agregar más campos a la fuente de datos. Esto amplía la cantidad de campos que puede analizar. Puede agregar una unión de columnas en cualquier momento durante el flujo de preparación de datos. Sin embargo, cuanto antes la aplique, antes entenderá el conjunto de datos y podrá determinar las áreas que requieren atención.
Por otra parte, una unión de filas le permitirá agregar dos conjuntos de datos juntos. Por ejemplo, puede tener un archivo Excel donde cada hoja muestra las transacciones de diferentes años. En lugar de crear uniones de columnas en las tablas, una unión de filas le permite mantener la misma estructura, pero con más filas.
Cuando una filas o columnas de dos tablas, considere el nivel de detalle. A fin de lograr una unión correcta, es posible que deba modificar el nivel de detalle. Si parece que algo no está bien, pruebe con la agregación.
Realice un seguimiento de sus pasos
Mantenerse organizado durante el proceso de preparación es fundamental para poder volver atrás y modificar algún paso previo. No es necesario seguir instrucciones específicas para limpiar los datos (de hecho, debe prepararlos de una forma que sea conveniente para su caso). Aun así, si sabe dónde realizó los cambios, será mucho más fácil modificar y actualizar el proceso de preparación de datos.
Adapte la preparación a su pensamiento
La preparación de datos incluye numerosos componentes, desde la reestructuración hasta el cambio de formato y la limpieza. Además, no debe limitarse a seguir un orden específico. Tableau Prep le permite realizar cambios y actualizaciones en sus datos adaptados a su manera de pensar. Algunas personas pueden optar por comenzar invirtiendo los datos. Otros pueden empezar solucionando los errores de ortografía o datos faltantes.
Compartimente cada paso
Si crea nuevos pasos para un conjunto específico de acciones, el flujo de trabajo se mantiene ordenado. Imagine que los pasos son carpetas. Si organiza los archivos por tema, es más fácil encontrar lo que busca. Por otra parte, los pasos del flujo de trabajo deben abarcar un conjunto de cambios que comprendan una tarea en particular. Por ejemplo, limpiar nombres de clientes podría requerir dividir un campo, reasignar unos cuantos valores y aplicar filtros en otros campos a fin de lograr la segmentación de clientes correcta para los resultados de la fuente de datos. Cuando realiza estas acciones en un mismo paso, puede agregarle un nombre descriptivo que lo ayude a entender el flujo más adelante. Esto no solo lo ayuda a usted, sino también a otros analistas con los que comparta el flujo de trabajo, ya que les permite encontrar las mismas acciones y usarlas como referencia. De esta forma, pueden realizar modificaciones fácilmente.
Así es más sencillo llevar un seguimiento de lo que sucedió en un paso determinado. Si realiza una acción y se arrepiente, puede borrar o modificar rápidamente desde el panel de cambios.
Utilice las respuestas visuales
Es mucho más fácil preparar los datos si puede ver cómo estos se relacionan antes de empezar el análisis. Por ejemplo, la cantidad de filas de un conjunto después de una unión de columnas, o errores de ortografía o de otro tipo. Al igual que Tableau Desktop, Tableau Prep se creó pensando en nuestra misión: ayudar a las personas a ver y comprender sus datos.
Cuadrícula de datos
El uso de la cuadrícula de datos en Tableau Prep es la solución perfecta para encontrar lo que busca en los datos. Puede ver qué aspecto presentan los datos después de un cambio y detectar las anomalías existentes.
Minimapas
En ocasiones, puede pensar que sus datos están totalmente limpios pero, gracias al minimapa, detecta un valor atípico o registros faltantes. Utilice el minimapa para detectar estos errores y aplicar los cambios necesarios.
Entienda la unión
Es fácil unir por accidente campos incorrectos, en especial si une varios al mismo tiempo. Tableau Prep utiliza la respuesta visual para mostrar los resultados de una unión de columnas. Esto lo ayuda a descubrir si hay valores atípicos, si se devolvieron demasiados datos y si estos son correctos o no.
Continúe iterando
La preparación de datos es un proceso continuo. No finaliza una vez corregidos los errores de ortografía y realizadas las uniones. Cuando se actualiza el conjunto de datos, es posible que sus preguntas cambien o que descubra que debe agregar otro campo. Con la funcionalidad para abrir muestras en Tableau Desktop de Tableau Prep, es fácil comprobar el aspecto de los datos en el paso del análisis en el que se encuentra.
Ejecute el flujo de trabajo y comience el análisis
Ahora que ha limpiado, reestructurado y filtrado los datos, llegó el momento de entender qué le dicen los datos. A diferencia de muchas herramientas de preparación de datos, Tableau Prep se integra en la plataforma de inteligencia de negocios. Tiene la posibilidad de publicar las extracciones en Tableau Server o Tableau Cloud, para que otros usuarios puedan comenzar sus propios análisis. También puede trasladarlas a Tableau Desktop para comenzar a hacer preguntas y explorar con más profundidad. Acaba de finalizar la parte más tediosa del proceso de análisis de datos. Ahora es momento de descubrir el fruto de su trabajo: la información.
Getting Started with Tableau Prep (Introducción a Tableau Prep)
¿Está comenzando a usar Tableau Prep? ¿Es la primera vez que limpia los datos? Este video es ideal para usted.