CHARTS: El diagrama de caja y bigotes de John W. Tukey

Exploratory Data Analysis, John W. Tukey, 1977

John W. Tukey (1915-2000), de la Universidad de Princeton (EEUU), definió en 1970 el diagrama de caja (‘box-plot’ en inglés). Este gráfico se utiliza cuando deseamos explicar cómo se distribuyen una serie de datos cuantitativos. Otras opciones para reflejar distribuciones son los histogramas y las curvas de distribución. En comparación con estos últimas, el gráfico de caja es más sencillo de entender, más claro y, por tanto, hace más rápida la comprensión visual.

 

Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977
Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977

 

Morfología del diagrama de caja

En su forma más simple, el gráfico de caja representa cinco datos estadísticos en una sola dimensión: el valor mínimo, el cuartil inferior (percentil 25), la mediana, la media, el cuartil superior (percentil 75) y el valor máximo.

Los cuartiles son los valores que dividen los datos en cuatro partes iguales o cuartos. Los percentiles, en cambio, dividen los datos en cien partes iguales. De esta forma,  el cuartil inferior (Q1) se corresponde con el percentil 25 y el cuartil superior (Q3) con el percentil 75.

· Caja: La longitud de la caja representa la distancia entre los percentiles 25 y 75: el tramo de la escala que va desde el primer cuartil al tercer cuartil de la distribución (rango intercuartílico o rango intercuartil). Esto incluye el 50 % de las observaciones centrales.
· Punto interior de la caja: Representa la media.
· Línea interior de la caja: Representa la mediana.

 

Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.
Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.

 

· Líneas verticales (bigotes): Representan los valores máximos (corte superior) y mínimos (corte inferior) del conjunto de datos. Sirven como referencia para ubicar las observaciones que están por fuera del 50% central de la distribución. Por tanto, estos diagramas descriptivos son muy valiosos para observar los valores atípicos (‘outliers’) y las dispersiones de los puntos con respecto a los percentiles.

Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.

John Wilder Tukey

Tukey fue un polifacético científico: matemático, químico y estadístico. En 1977 publicó el libro ‘Exploratory Data Analysis’ (‘EDA) en el cual propone una nueva didáctica de la enseñanza de la estadística descriptiva mediante innovadoras herramientas visuales.

 

El termino 'software' fue usado por primera vez por John Wilder Tukey en el año 1957.
El termino ‘software’ fue usado por primera vez por John Wilder Tukey en el año 1957, creador del diagrama de caja.

 

Exploratory Data Analysis , 1977
Exploratory Data Analysis , 1977

Exploratory Data Analysis
John W. Tukey.
1977
Addison-Wesley Publishing Company.
688 pp.

ADS: La paradoja de Krugmam

Gracias por visitar el sitio de Juantxo Cruz

Gracias por visitar el sitio de Juantxo Cruz

Para Paul Krugman (1953), premio Nobel de Economía de 2008, profesor en la Universidad de Princeton y columnista de The New York Times, afirma que el mayor problema de las ediciones impresas de los diarios es pensar que a corto y medio plazo los ingresos de su división ‘online’ cubrirán los ingresos perdidos en el papel. Los diarios deben aumentar su efectividad publicitaria en Internet si esa quiere ser su mayor corriente de ingresos.

Mientras tanto, las redes sociales siguen creciendo y haciéndose un hueco importante en el mercado de la publicidad ‘online’. Gráfico publicado hoy en el WSJ.

Links:
http://seekingalpha.com/article/109607-the-fundamental-problem-of-newspapers-on-the-internet

http://www.askpress.com/Profiles-37/Paul%20Krugman.html?profile_id=24&cur_page=2&pages=8