CHARTS: El diagrama de caja y bigotes de John W. Tukey

Exploratory Data Analysis, John W. Tukey, 1977

John W. Tukey (1915-2000), de la Universidad de Princeton (EEUU), definió en 1970 el diagrama de caja (‘box-plot’ en inglés). Este gráfico se utiliza cuando deseamos explicar cómo se distribuyen una serie de datos cuantitativos. Otras opciones para reflejar distribuciones son los histogramas y las curvas de distribución. En comparación con estos últimas, el gráfico de caja es más sencillo de entender, más claro y, por tanto, hace más rápida la comprensión visual.

 

Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977
Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977

 

Morfología del diagrama de caja

En su forma más simple, el gráfico de caja representa cinco datos estadísticos en una sola dimensión: el valor mínimo, el cuartil inferior (percentil 25), la mediana, la media, el cuartil superior (percentil 75) y el valor máximo.

Los cuartiles son los valores que dividen los datos en cuatro partes iguales o cuartos. Los percentiles, en cambio, dividen los datos en cien partes iguales. De esta forma,  el cuartil inferior (Q1) se corresponde con el percentil 25 y el cuartil superior (Q3) con el percentil 75.

· Caja: La longitud de la caja representa la distancia entre los percentiles 25 y 75: el tramo de la escala que va desde el primer cuartil al tercer cuartil de la distribución (rango intercuartílico o rango intercuartil). Esto incluye el 50 % de las observaciones centrales.
· Punto interior de la caja: Representa la media.
· Línea interior de la caja: Representa la mediana.

 

Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.
Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.

 

· Líneas verticales (bigotes): Representan los valores máximos (corte superior) y mínimos (corte inferior) del conjunto de datos. Sirven como referencia para ubicar las observaciones que están por fuera del 50% central de la distribución. Por tanto, estos diagramas descriptivos son muy valiosos para observar los valores atípicos (‘outliers’) y las dispersiones de los puntos con respecto a los percentiles.

Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.

John Wilder Tukey

Tukey fue un polifacético científico: matemático, químico y estadístico. En 1977 publicó el libro ‘Exploratory Data Analysis’ (‘EDA) en el cual propone una nueva didáctica de la enseñanza de la estadística descriptiva mediante innovadoras herramientas visuales.

 

El termino 'software' fue usado por primera vez por John Wilder Tukey en el año 1957.
El termino ‘software’ fue usado por primera vez por John Wilder Tukey en el año 1957, creador del diagrama de caja.

 

Exploratory Data Analysis , 1977
Exploratory Data Analysis , 1977

Exploratory Data Analysis
John W. Tukey.
1977
Addison-Wesley Publishing Company.
688 pp.

DATA: La oportunidad del análisis y la visualización de datos

Out of Sight, Out of Mind, pitchinteractive.com

Texto publicado en UNIR Revista el 28 de enero de 2014.

Sin duda, el tratamiento de los datos se ha convertido en una poderosa herramienta en todos los frentes del mundo de la comunicación. ¿De dónde salen todos estos datos? ¿Quién está detrás de ellos? Podemos pensar que la ciencia de los datos la desarrollan increíbles mentes pensantes de los departamentos de Ingeniería y Ciencia Computacional en las más importantes compañías de tecnología. Y por un lado es así. Los ingenieros en computación, los estadísticos y los matemáticos han encontrado un nuevo continente en el desarrollo de aplicaciones que manejan millones de datos. Es lo que se conoce como ‘Big Data’. Sus trabajos no deben quedarse en el manejo de las cifras: los números hay que convertirlos en algo que se pueda consumir.

Hablamos de la visualización de los datos a través de lenguajes de programación. El principal lenguaje de programación del lado del cliente e implementado por todos los navegadores (Chrome, Safari, Explorer…) es JavaScript. Así, el desarrollo de este lenguaje en los últimos años ha disfrutado de una evolución exponencial. Cada día nacen nuevas librerías del lenguaje para tareas de lo más diversas y especializadas.

Para la visualización de datos, la librería más dinámica y estructurada para la visualización de cantidades se llama ‘Data-Driven Documents –D3–’. Estas dos letras, D3, están de moda entre las empresas que se dedican a la presentación de datos en el navegador. Buscan ‘chicos D3’: Urgente. Obviamente, se trata de un perfil tecnológico; una persona que sepa programar, que tenga un buen conocimiento de Javascript y controle los lenguajes de la World Wide Web moderna (HTML5) y sus hojas de estilo (CSS).

Sin embargo, ser un gran programador no garantiza ser un buen contador de historias. Y aquí se abre la gran oportunidad para los periodistas en cualquiera de sus ramas. Se trata de encontrar la respuesta adecuada a cuestiones a veces muy complicadas y darles una solución sencilla.

 

Ejemplo de visualización de datos:

Out of Sight, Out of Mind Pitch Interactive, Berkely, California.
Out of Sight, Out of Mind Pitch Interactive, Berkely, California.

 

Ejemplo de estadística de investigación:

 Ejemplo de estadística de investigación In Climbing Income Ladder, Location Matters The New York Times, NY, EEUU
In Climbing Income Ladder, Location Matters The New York Times, NY, EEUU

 

Todo trabajo de investigación debe comenzar por la formulación de preguntas relevantes para luego identificar, obtener y transformar los datos en algo manejable que pueda utilizarse en infografías, gráficos, visualizaciones y textos escritos.

La cultura del ciudadano está cambiando: ahora exige que las información que se aporta esté sustentada en datos. Si no se los damos, el mismo puede consultar en la red lo que están diciendo otros, y siempre tendrá más fuerza un argumento con los pies en los datos que un comentario o opinión sin ellos. Ahora, los datos y su análisis ya no son exclusivos de las grandes compañías tecnológicas como Google, eBay o Facebook: prácticamente todo tipo de industria, grande o pequeña, necesita el análisis de datos para convencer al ciudadano y mejorar el rendimiento de sus negocios.

 

Se necesitan programadores, claro, pero también gente que sepa como hacer las preguntas adecuadas, qué datos recoger, cómo tratarlos para encontrar los datos que nos sirvan, como hacer un resumen de ellos y finalmente, qué herramientas existen para presentarlos en sociedad. A veces, tendremos que echar mano de programadores especializados en visualización; otras, bastará una infografía sencilla realizada por uno mismo en Excel o Tableu.

La comunicación es un aspecto de la nueva cultura de la red que interesa a todo tipo de industria y actividad, desde educadores y estudiantes hasta agentes de publicidad. Los personas que se dedican o quieran dedicarse a la comunicación deben conocer cómo trabajar con distintos perfiles en el desarrollo de los gráficos y el análisis de datos.

Muchas veces, las empresas echan en falta la penetración de sus informe en su propia empresa o hacia el exterior. La mayoría de las veces, la causas se encuentran en la mala presentación de los conceptos, la poca o nula información visual y la gran extensión de los textos. En una sociedad sin tiempo, es imprescindible el resumen de conceptos y ofrecer una alternativa visual. Los sectores más interesados en el análisis de los números son las empresas de análisis de los consumidores (marketing, análisis social, consultoría, gobiernos), de los resultados de las máquinas (ingeniería, medicina, topografía, finanzas), de los contenidos (medios de comunicación, educación) y de la investigación (I+D, alta tecnología). Los profesionales con más proyección en la visualización de información son periodistas, documentadores, directores de arte, diseñadores y desarrolladores de páginas web que deben presentar la información de forma coherente y digerible para el usuario final. En definitiva, personas que sepan encontrar el valor en los datos para después presentarlo de forma eficaz.

Instructor en el Taller de Visualización para enCastillaLaMancha.es, 2017

Curso de formación sobre Visualización de Datos para el diario digital encastillalamancha.es.

Febrero de 2017, Toledo

Consultoría gráfica

Prodigioso Volcán

 

EnCastillaLaMancha.es
EnCastillaLaMancha.es

Encastillalamancha.es

Encastillalamancha.es es un periódico digital diario que se edita en Castilla-La Mancha con información, opinión y análisis bajo los principios de libertad, pluralidad e independencia.

Directora: 
Mar G. Illán (margillan@encastillalamancha.es)

Director comercial:
 Valentín Salamanca (valentinsalamanca@encastillalamancha.es)

Redactor jefe:
César del Río (cesardelrio@encastillalamancha.es)

Redactores:
 Rebeca Arango (fotografía) (rebecaarango@encastillalamancha.es)
, Sonia Martín (soniamartin@encastillalamancha.es), 
Elena Llave (elenallave@encastillalamancha.es), 
Ramón de Juan (ramondejuan@encastillalamancha.es)

Publicidad:
 Cristina Sánchez (cristinasanchez@encastillalamancha.es)

Administración: 
Estrella Gómez Illan (estrellagomez@encastillalamancha.es)

Instructor en el Taller de investigación, fuentes, redacción y visualización, Monterrey 2015

Taller de investigación, fuentes, redacción y visualización

Instructor del módulo de visualización en Taller de investigación, fuentes, redacción y visualización que tuvo lugar del 29 de junio al 3 de julio de 2015 en Monterrey, México.

 

Taller de investigación, fuentes, redacción y visualización
Taller de investigación, fuentes, redacción y visualización

 

El taller estuvo dirigido por Antonio Rubio.

• Antonio Rubio (Doctor y director del Máster en Periodismo de El Mundo/Universidad CEU).

• Antonio Delgado (periodista especializado en datos).

•  Juantxo Cruz (comunicación visual).

UNIR (2013-2015)

UNIR, La universidad online a distancia.

En Octubre de 2013 me incorporé al equipo de UNIR Revista para la realización de especiales multimedia, diseño web, gráficos. Además, durante ese periodo fui el coordinador del Máster de Investigación y visualización de datos.

Portada digital de UNIR Revista.
Portada digital de UNIR Revista.

Equipo:
DIRECCIÓN: Enrique Infante e Ignacio Garrido.
DIRECCIÓN MULTIMEDIA: Adriano Morán
GRÁFICOS INTERACTIVOS: Paula Guisado y Juantxo Cruz
DISEÑO: José Antonio Pérez y Juantxo Cruz
INVESTIGACIÓN: Juantxo Cruz y Paula Guisado
REDACCIÓN: Borja Gutiérrez, Gema Sánchez de la Nieta, María Sorribes Catret.
EDICIÓN, IMAGEN Y SONIDO: Javier Álvarez y Adriano Morán
ILUSTRACIONES: Javier Álvarez

Coordinador del Máster Universitario en Periodismo de Investigación, Datos y Visualización, UNIR 2015

UNIR, La universidad online a distancia.

Puesta en marcha del Máster Universitario en Periodismo de Investigación, Datos y Visualización.
Universidad: UNIR, Universidad Internacional de la Rioja.
ETCS: 60
Fechas: Octubre de 2013-febrero de 2015
Lugar: Madrid.
Puesto: Adjunto a la Directora Académica del Máster en Periodismo de Investigación, Datos y Visualización, Marian Chaparro.
Funciones: Elaboración del temario para el campus virtual y búsqueda de profesores universitarios para:

• Extraer de las fuentes los datos relevantes y generadores de noticia.
• Transformar datos en historias.
• Adquirir una visión global y estratégica de la narración digital.
• Informar de forma clara, fácil y verificable.
• Visualizar y publicar los datos en gráficos y textos periodísticos.
• Desarrollar el razonamiento estadístico.
• Utilizar el software necesario para la construcción de noticias a través del periodismo de datos.
• Coordinar los diferentes perfiles involucrados en la investigación: periodistas, infografistas, programadores y desarrolladores.

DATA: Entrevista a Ben Welsh, The Data Desk

Ben Welsh y 'The Data Desk' de Los Ángeles Times

Entrevista realizada por Juantxo Cruz en enero de 2015 a Ben Welsh, periodista de datos y database producer en LA Times.

Ben Welsh y ‘The Data Desk’ de Los Ángeles Times

THE DATA DESK

¿Qué es el Data Desk de Los Ángeles Times?
Ben: Yo trabajo en LA Times en California en un equipo denominado ‘The Data Desk’.
‘The Data Desk’ comenzó más como una idea que cómo una organización estructurada, se trata de un lugar común para trabajar con datos y se extiende entre varios departamentos de Los Ángeles Times, con gente que trabaja en el sitio web, gente que trabaja en el periodismo de investigación, gente que trabaja en el departamento de gráficos.

Entonces, es como una zona de conexión entre los periodistas, un punto de encuentro. ¿Cómo se organiza este flujo de conexiones?
Ben: Para mí lo importante es la capacidad de crear relaciones entre los grupos que componen la organización, personas que están interesadas en utilizar los datos para encontrar y contar historias que nos serían posibles de otra manera. Después vienen los ajustes de organización para ver quién va a hacer qué y o quién va a escribir la historia. Lo importante es la idea de utilizar los datos para hacer que las historias aparezcan y encontrar las personas en la organización que estén de acuerdo con ello.

HERRAMIENTAS DE LOS PERIODISTAS

¿Cuáles son las principales herramientas que utilizáis en ‘The Data Desk’?
Ben: En nuestro equipo tenemos desarrolladores web, que trabajan todo el día con editores de texto y entornos de código abierto para construir sitios web, hasta personas que son más analistas y reporteros de investigación que utilizan Microsoft Excel y otros programas que hacen estos objetivos más sencillos sin necesidad de programar. Así es que es muy variado, dependiendo de la persona y en lo que esté trabajando tú puedes utilizar cualquier herramienta.

Y tú, ¿cuál es la herramienta que dominas mejor?
Ben: Personalmente, yo prefiero el código abierto por la calidad es muy alta, el coste es muy bajo, un coste cero, y me permite conseguir todo lo que quiero sin coste alguno.

(Ver aquí algunas de sus aplicaciones)

EL EQUIPO DE DATOS
¿Cuántas personas participan en el equipo? ¿Son todos periodistas?
Ben: Somos alrededor de 500 personas especializadas en diversas tareas y en trabajando con datos. Sí, somos periodistas. Escribimos historias además de código y trabajamos con los reporteros para darle forma a las historias y contarlas.

PROGRAMACIÓN Y PERIODISMO

Tus aplicaciones muestran una complejidad técnológica importante. ¿Has estudiado ingeniería o alguna rama tecnológica especializada?
Ben: No tengo una educación formal en computación, mucha gente sabe programar, pero yo empecé a interesarme por los ordenadores en la escuela secundaria cuando era joven.

Nunca fue un objetivo para mi ser programador, pero estaba interesado en programación como usuario y entonces cuando empecé a trabajar como un periodista tradicional enseguida vi las posibilidades que tenía para encontrar historias con unos conocimientos mínimos de programación.

¿Cuáles eran tus conocimientos de programación cuando empezaste en el mundo del periodismo de datos en 2007?
Ben: Estudié en la Universidad de Misuri en EEUU. Allí había un grupo especial, llamado NICAR – ‘National Institute por Computer Assisted Reporting’-. No era un grado o un programa educativo. Es un grupo profesional dentro de la Universidad que realiza sesiones de entrenamiento con los periodistas para aprender programación. Ahí trabajé como estudiante graduado para ayudar a la organización. Tenía el tiempo, la gente y la ayuda para ser convertirme en un programador profesional.


BASES DE DATOS Y PERIODISMO

Afirmas que, trabajando con bases de datos, si haces las cosas bien, no se puede mentir. ¿Cuáles son los errores más comunes trabajando o entrevistando las bases de datos?
Ben: No entender cómo fue organizada o cómo fue creada la base de datos y cuáles son sus puntos débiles. Todos los procesos de creación de bases de datos tienen problemas, fallos, agujeros, puntos que hay que revisar, que pueden hacer que el análisis sea equivocado. Si la base de datos tiene duplicados y no tienes cuidado con esto, si los datos son alterados y no te das cuenta, si la persona que la creó falló en la forma de almacenar los datos y no te das cuenta o haces una mala interpretación.

¿Y en cuanto a la estadística?
Ben: Tu operación matemática puede ser perfecta cuando se hace la suma, pero tu interpretación, en la declaración que puedas hacer, quizás sea equivocada, excesiva o malinterpretada.

También son importantes las fuentes…
Ben: Tienes que conocer tus datos, cómo se consiguieron, cuáles fueron las observaciones antes de hacer una afirmación.

Mapa interactivo desarrollado por Ben Welsh. Palewire, Applications.
Mapa interactivo desarrollado por Ben Welsh. Palewire, Applications.

PYTHON Y ROBOTS COMPUTACIONALES
Estáis programando robots con el lenguaje Python para construir bases de datos y encontrar historias. Cuéntanos más sobre esto.
Ben: Un ejemplo puede ser los arrestos realizados de la Policía de Los Ángeles. Todos los días por la mañana la policía envía un correo electrónico con la lista de las personas que han detenido el día anterior. Tenemos una secuencia de comandos, un robot si lo quieres llamar así, en realidad es un programa escrito con Python y, que para ser honesto, es muy modesto, que descarga el fichero y lo incorpora a la base de datos para hacerlo accesible a los reporteros y utilizarlo en búsquedas e investigaciones.

También pregunta automáticamente a los datos sobre una serie de cuestiones, como por ejemplo una serie de profesiones, como políticos o productores de cine. Si han sido arrestados, el programa manda un correo con un aviso a todo el mundo. Si el arresto ha sido consecuencia de un asesinato o se trata de un acontecimiento grave, estos sucesos tienen una señal especial en el programa para avisarnos.

¿Son como máquinas que hacen el trabajo sucio…?
Ben: Lo que realmente estás haciendo cuando escribes este tipo de código, la secuencia de comandos, lo que buscas son las preguntas que los periodistas harían siempre a esta base de datos.

Ben Welsh estuvo en Madrid el pasado mes de diciembre asesorando el II Taller de Periodismo de Datos organizado por Mar Cabra y Adolfo Antón Bravo, del grupo de periodismo de datos de MediaLab Prado, un centro cultural dependiente del Área de Las Artes, Deportes y Turismo del Ayuntamiento de Madrid.

DATA: Entrevista a Adolfo Antón Bravo

Adolfo Antón Bravo

Video entrevista realizada por Juantxo Cruz a @adolflow, experto en tecnologías de la Web Semántica, en MediaLab Prado.

 
Adolfo Antón Bravo: “El Periodismo de Datos debe buscar patrones y tendencias”
 

EXTRACTO DE LA ENTREVISTA

Nos encontramos con Adolfo Antón en un II Taller de Periodismo de Datos en ebullición; un aula llena de voluntariosos ‘data journalists’ que habían quedado en Madrid el pasado mes de diciembre para seguir “el rastro del dinero público”. Éste era el nombre de la convocatoria.

Según el investigador de las relaciones entre la web y la semántica “el periodista siempre ha trabajado con datos; lo que ocurre ahora es que el volumen de datos es mayor”; así, “el Periodismo de Datos debe buscar patrones y tendencias, debe dejarte caminar, debe dejarte pensar y debe ser verídico lo que te está contando”.

En esta entrevista Adolfo reivindica la disciplina de la Estadística en los estudios de Periodismo, “en ciencias Sociales y Letras está abandonada”, y el papel fundamental del código libre para trabajar con datos.

Sobre los medios, afirma que ”en España están tardando en incorporar las nuevas tecnologías, en parte por la crisis” y que “como ciudadano estoy aburrido de los medios de comunicación porque no dicen nada que no pueda saber por la nota de prensa de una empresa o un organismo gubernamental”.

 

REFERENCIADAS DE LA ENTREVISTA:

Antonio Delgado [ @adelgado ]: Colaborador de tecnología en medios de comunicación y consultor independiente asesorando a empresas e instituciones sobre sus estrategias on line. Impulsor de los encuentros de debate #redada.

Jesús Escudero [ @jescuderoma ]: Periodista especializado en Periodismo de Datos en elconfidencial.com.

– Noemí Ramírez [ @noemiRamirez ]: Directora de Producto Digital de El País; experta en gestión de servicios informativos para medios de comunicación.

 elconfidencial [ @elconfidencial ]: “Alvia 04155: así fue el minuto a minuto del accidente que conmocionó a un país”.

DATA: Entrevista a Mariano Zafra

Mariano Zafra

Entrevista realizada por Juantxo Cruz en MediaLab-Prado Madrid a Mariano Zafra, infógrafo y visualizador de información en El País.

 

Mariano Zafra: “Creo en la especialización y en los equipos multi disciplinares que tengan periodista y programadores”

 

 

EXTRACTO DE LA ENTREVISTA

Introducirse en el mundo de los datos: Microsoft Excel:
Algunas aplicaciones interactivas que encuentras en la web – Tableau, Datawrapper, CartoDB – “funcionan de una forma semejante: utilizan datos contenidos en celdas, por ello, la mejor forma de entrar es a través de Excel”, según el periodista.

Infografía y visualización:
“Veo más compleja la visualización tradicional, hay que aprender dibujar con programas como Illustrador, hacer las gráficas a mano, picar los datos, muchas veces los periodistas traen los datos escritos en un cuaderno.”

“Ahora eso se ha simplificado, ahora te puedes meter en una aplicación web sencilla como Datawrapper copias los datos de Excel, los pega y prácticamente ya tienes una gráfica interactiva. De entrada un periodista se puede olvidar de la programación e ir directamente a estas aplicaciones”.

Especialización y coordinación:
“Creo en la especialización y en los equipos multi disciplinares que tengan periodista y programadores, e incluso perfiles intermedios como puede ser un infografista, que sepa cómo utilizar esos datos.”

“Cada perfil tiene saber lo que están haciendo los demás. Todo el mundo tiene que aprender cosas de lo que hace el otro: el periodista tiene que saber que el programador utiliza el lenguaje javascript y que a través de un archivo JSON o Excel va a coger esos datos y luego utilizarlos.”

“El programador también tiene que saber que hay unas fuentes oficiales, que tienen que hacer públicos esos datos, cómo sacar los datos de ahí”.

Noticias y bases de datos:
“A veces, al analizar la base de datos, el programador va a ver historias que no ha visto el periodista.”

“La historia está antes de los datos, pero con los datos van haber más historias.”

REFERENCIADAS DE LA ENTREVISTA

Microsoft Excel [ @msexcel ]: Toda la información está en los datos.

Tableau [ @tableau ]: el modo más rápido y más fácil de compartir análisis en la nube.

Datawrapper [ @Datawrapper ]: Gráficos y mapas en solo cuatro pasos.

CartoDB [ @cartoDB ]: Design amazing maps with your data.

Adobe Illustrator [ @Illustrator ]: Ilustraciones vectoriales. Sobre la marcha y en el escritorio.

ICIJ [ @ICIJorg ]: Luxembourg Leaks: Global Companies’ secret exposed.

Mariano Zafra [ @Mariano_Zafra ]: Trabajos en El País.

El País Infografía [ @elpais_info ]: Sección de Infografía e Ilustración de @el_pais.

Mariano Zafra estuvo en Madrid asesorando el II Taller de Periodismo de Datos organizado por Mar Cabra y Adolfo Antón Bravo, del grupo de periodismo de datos de MediaLab Prado, un centro cultural dependiente del Área de Las Artes, Deportes y Turismo del Ayuntamiento de Madrid.