CHARTS: El diagrama de caja y bigotes de John W. Tukey

John W. Tukey (1915-2000), de la Universidad de Princeton (EEUU), definió en 1970 el diagrama de caja (‘box-plot’ en inglés). Este gráfico se utiliza cuando deseamos explicar cómo se distribuyen una serie de datos cuantitativos. Otras opciones para reflejar distribuciones son los histogramas y las curvas de distribución. En comparación con estos últimas, el gráfico de caja es más sencillo de entender, más claro y, por tanto, hace más rápida la comprensión visual.

 

Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977
Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977

 

Morfología del diagrama de caja

En su forma más simple, el gráfico de caja representa cinco datos estadísticos en una sola dimensión: el valor mínimo, el cuartil inferior (percentil 25), la mediana, la media, el cuartil superior (percentil 75) y el valor máximo.

Los cuartiles son los valores que dividen los datos en cuatro partes iguales o cuartos. Los percentiles, en cambio, dividen los datos en cien partes iguales. De esta forma,  el cuartil inferior (Q1) se corresponde con el percentil 25 y el cuartil superior (Q3) con el percentil 75.

· Caja: La longitud de la caja representa la distancia entre los percentiles 25 y 75: el tramo de la escala que va desde el primer cuartil al tercer cuartil de la distribución (rango intercuartílico o rango intercuartil). Esto incluye el 50 % de las observaciones centrales.
· Punto interior de la caja: Representa la media.
· Línea interior de la caja: Representa la mediana.

 

Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.
Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.

 

· Líneas verticales (bigotes): Representan los valores máximos (corte superior) y mínimos (corte inferior) del conjunto de datos. Sirven como referencia para ubicar las observaciones que están por fuera del 50% central de la distribución. Por tanto, estos diagramas descriptivos son muy valiosos para observar los valores atípicos (‘outliers’) y las dispersiones de los puntos con respecto a los percentiles.

Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.

John Wilder Tukey

Tukey fue un polifacético científico: matemático, químico y estadístico. En 1977 publicó el libro ‘Exploratory Data Analysis’ (‘EDA) en el cual propone una nueva didáctica de la enseñanza de la estadística descriptiva mediante innovadoras herramientas visuales.

 

El termino 'software' fue usado por primera vez por John Wilder Tukey en el año 1957.
El termino ‘software’ fue usado por primera vez por John Wilder Tukey en el año 1957, creador del diagrama de caja.

 

Exploratory Data Analysis , 1977
Exploratory Data Analysis , 1977

Exploratory Data Analysis
John W. Tukey.
1977
Addison-Wesley Publishing Company.
688 pp.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *