El lugar de los Dataviz en español

miércoles, 29 de enero de 2014

Normalización de Datos para ser usados en Tableau

Esta blog es muy útil para trasformar toda esa información que tenemos en Excel y necesitamos ponerla de tal forma que un software de Dataviz como Tableau pueda interpretar.

El primer paso en la exploración de los datos con Tableau está en examinar cómo se presentan los datos. Cuando un origen de datos de Excel (que no sea un cubo) que ya tiene formato de tabulación cruzada, las opciones para ver, agregar, y la agrupación de Tableau son limitadas. Tableau no puede ver los puntos de datos subyacentes que ya han sido resumidos en un grupo de nivel superior. Para tomar ventaja de la funcionalidad completa de Tableau, es necesario normalizar los datos – es decir, tener los datos en un formato tipo tabla de una base de datos – antes de conectarlo a Tableau.


Por ejemplo, considere los dos libros que se muestran a continuación. El primero es un informe formateado con encabezados repetidos, filas vacías, totales, etc.


Al abrir el libro en Tableau, sus datos deben ser una tabla de datos en bruto, como se ve a continuación:


A continuación se presentan algunos consejos para convertir sus informes formateados en una tabla de datos en bruto que está listo para su análisis en Tableau.

Retirar o Exluir texto innecesario

La primera fila de cada archivo o Hoja debe contener los encabezados de campo (o nombres de columna). Muchos de los informes suministrados en forma de libros de Excel tienen un bloque de texto de introducción en la parte superior. Este texto puede ser títulos, leyendas de color, descripciones, etc. Retire toda esta información antes de abrir los datos con Tableau.


Si no se remueven los textos introductorios, Tableau no podrá reconocer los nombres de las columnas como Dimensiones o Medidas.

Asegúrese de que cada fila contiene sólo una parte de los datos

Este ejemplo muestra una tabla de Excel que muestra los estudiantes y sus calificaciones en tres temas. En un diseño de tabla de referencias cruzadas, tiene una columna para cada sujeto. En esta tabla, cada fila contiene tres datos: la calificación del estudiante en matemáticas, de grado en Inglés, y grado en Ciencias.

ID
Gender
School
Math
English
Science
1
M
West
90
80
70
2
F
South
50
50
50
3
M
Central
90
80
90
4
M
Central
50
80
80
5
M
West
100
90
100
6
F
West
80
80
60
7
F
South
50
80
100
8
F
Central
80
50
100
9
M
South
70
80
80

Vuelva a colocar las columnas de Matemáticas, Inglés y Ciencias, con una sola columna: Tema. Ahora, la tabla contiene tres líneas por cada estudiante, pero cada fila contiene sólo un grado.

ID
Gender
School
Subject
Score
1
M
West
Math
90
1
M
West
English
80
1
M
West
Science
70
2
F
South
Math
50
2
F
South
English
50
2
F
South
Science
50
3
M
Central
Math
90
3
M
Central
English
80
3
M
Central
Science
90
4
M
Central
Math
50
4
M
Central
English
80
4
M
Central
Science
80
5
M
West
Math
100
5
M
West
English
90
5
M
West
Science
100
6
F
West
Math
80
6
F
West
English
80
6
F
West
Science
60
7
F
South
Math
50
7
F
South
English
80
7
F
South
Science
100
8
F
Central
Math
80
8
F
Central
English
50
8
F
Central
Science
100
9
M
South
Math
70
9
M
South
English
80
9
M
South
Science
80

Limite cabeceras para una sola fila

No sólo si la primera fila debe contener los encabezados de campo, sino también esto debería ser la única fila de encabezados. Si usted tiene encabezados generales que conlleva o agrupa otro encabezado, es necesario que cree otra columna que permita normalizar la tabla.


Rellenar las celdas en blanco

Si ha creado una nueva columna, asegúrese de llenar las celdas en blanco para que la información se repita para cada fila de datos, no sólo la primera ocurrencia. Si bien esto parece redundante, es importante que cada registro (o fila) tenga datos a través de todas las columnas. Ver ejemplo a continuación

Limpie los datos agregados y descriptivos

Asegúrese de eliminar las filas que no contienen los registros de datos en bruto. Por ejemplo, un informe de Excel puede tener filas que contienen información descriptiva y filas totales generales. Usted puede agregar fácilmente los totales de Tableau y no es necesario para su cálculo en el origen de datos.


Eliminar filas y encabezados duplicados

Quite las filas en blanco y filas que contienen encabezados duplicados. Cada columna solo debe tener (1) un encabezado.

Agregar encabezados en blanco

Si cualquier columna no tiene un título, asegúrese de agregar una. Sea descriptivo al escribir los encabezados de columna.

Cambiar la forma de toda la estructura de los datos de Excel usando el Plug-in de Tableau para Excel

Incluso si usted ha seguido todas las sugerencias que se muestran arriba, es posible que tenga los datos en un formato que no es ideal para Tableau, puramente desde una perspectiva analítica. Por ejemplo, es posible que tenga una columna para cada mes de los datos empresariales, que Tableau interpreta como columnas separadas, haciendo comparaciones mes a mes difíciles.

Puede utilizar el plug-in de Tableau para Excel para remodelar sus datos. Siga las instrucciones a continuación para descargar e instalar el pulg-in http://kb.tableausoftware.com/articles/knowledgebase/addin-reshaping-data-excel

Nota: La información presentada a continuación fue tomada de base de conocimiento de Tableau y es traducida a español para facilitar su entendimiento a los hispanohablantes.

Fuente: http://kb.tableausoftware.com/articles/knowledgebase/preparing-excel-files-analysis

No hay comentarios:

Publicar un comentario