CHARTS: El diagrama de caja y bigotes de John W. Tukey

Exploratory Data Analysis, John W. Tukey, 1977

John W. Tukey (1915-2000), de la Universidad de Princeton (EEUU), definió en 1970 el diagrama de caja (‘box-plot’ en inglés). Este gráfico se utiliza cuando deseamos explicar cómo se distribuyen una serie de datos cuantitativos. Otras opciones para reflejar distribuciones son los histogramas y las curvas de distribución. En comparación con estos últimas, el gráfico de caja es más sencillo de entender, más claro y, por tanto, hace más rápida la comprensión visual.

 

Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977
Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977

 

Morfología del diagrama de caja

En su forma más simple, el gráfico de caja representa cinco datos estadísticos en una sola dimensión: el valor mínimo, el cuartil inferior (percentil 25), la mediana, la media, el cuartil superior (percentil 75) y el valor máximo.

Los cuartiles son los valores que dividen los datos en cuatro partes iguales o cuartos. Los percentiles, en cambio, dividen los datos en cien partes iguales. De esta forma,  el cuartil inferior (Q1) se corresponde con el percentil 25 y el cuartil superior (Q3) con el percentil 75.

· Caja: La longitud de la caja representa la distancia entre los percentiles 25 y 75: el tramo de la escala que va desde el primer cuartil al tercer cuartil de la distribución (rango intercuartílico o rango intercuartil). Esto incluye el 50 % de las observaciones centrales.
· Punto interior de la caja: Representa la media.
· Línea interior de la caja: Representa la mediana.

 

Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.
Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.

 

· Líneas verticales (bigotes): Representan los valores máximos (corte superior) y mínimos (corte inferior) del conjunto de datos. Sirven como referencia para ubicar las observaciones que están por fuera del 50% central de la distribución. Por tanto, estos diagramas descriptivos son muy valiosos para observar los valores atípicos (‘outliers’) y las dispersiones de los puntos con respecto a los percentiles.

Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.

John Wilder Tukey

Tukey fue un polifacético científico: matemático, químico y estadístico. En 1977 publicó el libro ‘Exploratory Data Analysis’ (‘EDA) en el cual propone una nueva didáctica de la enseñanza de la estadística descriptiva mediante innovadoras herramientas visuales.

 

El termino 'software' fue usado por primera vez por John Wilder Tukey en el año 1957.
El termino ‘software’ fue usado por primera vez por John Wilder Tukey en el año 1957, creador del diagrama de caja.

 

Exploratory Data Analysis , 1977
Exploratory Data Analysis , 1977

Exploratory Data Analysis
John W. Tukey.
1977
Addison-Wesley Publishing Company.
688 pp.

Lunes áureo

 El enigmático ratio dorado 

Según los estudiosos, la divina proporción puede estar en el Partenón, en un iPad, en un marco de ventana, en una página de periódico o en una de Twitter. Suele ser lo que ocurre cuando mezclas filosofía, matemática, arte y teología en la coctelera pitagórica. 
El ‘Golden Ratio’ – Fi, la razón matemática entre la longitud de una circunferencia y su diámetro- es un número especial que se aproxima el 1,618. Fue descubierto por Pitágoras, Euclides y los griegos antiguos: una división matemática de las proporciones que encontramos en la naturaleza, incluida la forma humana.
Diseño del Partenón

Por lo visto, hemos estado usado el concepto de número áureo durante miles de años, aplicado al arte, la arquitectura y el diseño, en busca de la belleza: alguna parte del cerebro relaciona las proporciones de las cosas con algo que está presente en nuestro cuerpo, buscando un refugio visual frente al caos.
Rediseño de Twitter.
Algunas veces nos descubrimos a nosotros mismos a través de lo que vemos. 

 Apple Golden Ratio.

Data Cracks!

Recojo aquí dos de los personajes más interesantes en la escena de la interacción y los datos.
Expertos en matemáticas, combinaciones, matrices, geometría, probabilidad, análisis numéricos, lenguaje de programación e interacción humana.
Ademas son creativos; la NASA de la visualización.

Santiago Ortiz ‘MOEBIO’

Matemáticas en la Universidad de Los Andes, Colombia.
Profesor de Arte y Tecnología en la European University de Madrid.
Visualizador, inventor de algoritmos.
Proyectos web interactivos de alta innovación.
Frameworks en Javascript/HTML5.
Fundador de Bestiario.

Moebio en Twitter.
Bestiario en Twitter.

MIKE BOSTOCK

Ciencias de la Computación, Princeton University, 2000.
Profesor en Stanford University, EEUU, Ciencias Computación.
Trabaja para TNYT desde San Francisco.
Data-Driven Documents.
Creador de librería de Javascript D3 para manipular datos en el DOM.

“D3 is a small, free JavaScript library for manipulating HTML documents based on data. D3 can help you quickly visualize your data as HTML or SVG, handle interactivity, and incorporate smooth transitions and staged animations into your pages. You can use D3 as a visualization framework (like Protovis), or you can use it to build dynamic pages (like jQuery).”

mbostock en Tumblr.

Workshop, (presentación).

mbostock en Twitter.

GRAPHICS: Wolfram MathWorld

Ayer me encontré esta página de matemáticas. Se llama Wolffram MathWorld y su ‘lema es la fuente de matemáticas más extensa de la web’.

Recordé los tiempos del instituto y la lucha constante contra los elementos del álgebra. Pobres libros. Ahora los buscó y cuestan una pasta. El caso que llegué al capítulo de gráficos y descubrí un tesoro. Para resumir, gráficos matemáticos que, como podréis ver, son unos diagramas estupendos para organizar contenidos informativos. Ya lo sé, no estamos descubriendo la pólvora. Ayer disfruté muchas horas repasando las formas y geometrías propuestas por Eric w. Weisstein. Gracias.

POSTERS: World Statistics Day, 20.10.10

Gracias por visitar el sitio de Juantxo Cruz

20 de octubre 2010
Día Mundial de la Estadística
Actividades en España.

Hagamos de este histórico Día Mundial de la Estadística un éxito reconociendo y celebrando la función de las estadísticas en el desarrollo social y económico de nuestras sociedades.
Ban Ki-Moon. Secretario General de Naciones Unidas.

Gracias por visitar el sitio de Juantxo Cruz

Estrategia del INE para los próximos años.

WHY A WORLD STATISTICS DAY?

——————————————————————————–

The celebration of the World Statistics Day will acknowledge the service provided by the global statistical system at national and international level, and hope to help strengthen the awareness and trust of the public in official statistics. It serves as an advocacy tool to further support the work of statisticians across different settings, cultures, and domains.

WHAT TO EXPECT

——————————————————————————–

On World Statistics Day, activities at national level will highlight the role of official statistics and the many achievements of the national statistical system. International, regional and sub-regional organizations will complement national activities with additional events.