CHARTS: El diagrama de caja y bigotes de John W. Tukey

Exploratory Data Analysis, John W. Tukey, 1977

John W. Tukey (1915-2000), de la Universidad de Princeton (EEUU), definió en 1970 el diagrama de caja (‘box-plot’ en inglés). Este gráfico se utiliza cuando deseamos explicar cómo se distribuyen una serie de datos cuantitativos. Otras opciones para reflejar distribuciones son los histogramas y las curvas de distribución. En comparación con estos últimas, el gráfico de caja es más sencillo de entender, más claro y, por tanto, hace más rápida la comprensión visual.

 

Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977
Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977

 

Morfología del diagrama de caja

En su forma más simple, el gráfico de caja representa cinco datos estadísticos en una sola dimensión: el valor mínimo, el cuartil inferior (percentil 25), la mediana, la media, el cuartil superior (percentil 75) y el valor máximo.

Los cuartiles son los valores que dividen los datos en cuatro partes iguales o cuartos. Los percentiles, en cambio, dividen los datos en cien partes iguales. De esta forma,  el cuartil inferior (Q1) se corresponde con el percentil 25 y el cuartil superior (Q3) con el percentil 75.

· Caja: La longitud de la caja representa la distancia entre los percentiles 25 y 75: el tramo de la escala que va desde el primer cuartil al tercer cuartil de la distribución (rango intercuartílico o rango intercuartil). Esto incluye el 50 % de las observaciones centrales.
· Punto interior de la caja: Representa la media.
· Línea interior de la caja: Representa la mediana.

 

Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.
Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.

 

· Líneas verticales (bigotes): Representan los valores máximos (corte superior) y mínimos (corte inferior) del conjunto de datos. Sirven como referencia para ubicar las observaciones que están por fuera del 50% central de la distribución. Por tanto, estos diagramas descriptivos son muy valiosos para observar los valores atípicos (‘outliers’) y las dispersiones de los puntos con respecto a los percentiles.

Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.

John Wilder Tukey

Tukey fue un polifacético científico: matemático, químico y estadístico. En 1977 publicó el libro ‘Exploratory Data Analysis’ (‘EDA) en el cual propone una nueva didáctica de la enseñanza de la estadística descriptiva mediante innovadoras herramientas visuales.

 

El termino 'software' fue usado por primera vez por John Wilder Tukey en el año 1957.
El termino ‘software’ fue usado por primera vez por John Wilder Tukey en el año 1957, creador del diagrama de caja.

 

Exploratory Data Analysis , 1977
Exploratory Data Analysis , 1977

Exploratory Data Analysis
John W. Tukey.
1977
Addison-Wesley Publishing Company.
688 pp.

Portada e ilustración para el libro ‘Gürtel, la trama’

Gürtel, la trama

Portada ilustración.

Gürtel, la trama‘, libro de David Fernández

Ilustración y diseño de Juantxo Cruz.

Libros.com

Colección Investigación.

Este libro ha sido publicado tras completar una campaña de crowdfunding.

 

 

Portada del libro 'Gürtel, la trama'.
Portada del libro ‘Gürtel, la trama’.
Sobre el libro
«Este es un libro de pocos héroes y muchos villanos, un libro que escenifica los tentáculos de la corrupción. Ahí están la ‘Gürtel’, la ‘Púnica’, los papeles de Bárcenas, la ‘Malaya’; casos que se confunden, casos que suponen toda una losa para el Partido Popular y que, de no ser por estos periodistas malditos, jamás habrían salido a la luz».
Nacho Cardero, director de El Confidencial.

 

 

Sobre el autor

David Fernández, periodista madrileño nacido en 1975, es especialista en temas de interior y corrupción. Trabajó durante casi quince años en el diario 20minutos y en 2013 publicó el reportaje Los de la ETA han asesinado a tu hijo (Libros del K.O.) junto a José Antonio Gutiérrez. En la actualidad forma parte de la plantilla de El Confidencial; durante los últimos años ha colaborado con revistas como TiempoFiat Lux o Interviú.
Sobre la colección Investigación de libros.com

Periodismo de investigación debidamente documentado y contrastado; una colección que pretende levantar las alfombras del poder y sacar a debate los aspectos más ocultos de la política y la historia de nuestro país.

Director: Antonio Rubio

 

Diseño de la portada del libro 'La Tama Gürtel'
Diseño de la portada del libro ‘La Tama Gürtel’

 

Sobre la trama Gürtel

El caso Gürtel es el nombre con el que se conoce una investigación iniciada en noviembre de 2007 por la Fiscalía Anticorrupción y denunciada por la Fiscalía en febrero de 2009 ante la Audiencia Nacional, sobre una red de corrupción política vinculada al Partido Popular, que funcionaba principalmente en las comunidades de Madrid y Valencia.