CHARTS: El diagrama de caja y bigotes de John W. Tukey

Exploratory Data Analysis, John W. Tukey, 1977

John W. Tukey (1915-2000), de la Universidad de Princeton (EEUU), definió en 1970 el diagrama de caja (‘box-plot’ en inglés). Este gráfico se utiliza cuando deseamos explicar cómo se distribuyen una serie de datos cuantitativos. Otras opciones para reflejar distribuciones son los histogramas y las curvas de distribución. En comparación con estos últimas, el gráfico de caja es más sencillo de entender, más claro y, por tanto, hace más rápida la comprensión visual.

 

Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977
Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977

 

Morfología del diagrama de caja

En su forma más simple, el gráfico de caja representa cinco datos estadísticos en una sola dimensión: el valor mínimo, el cuartil inferior (percentil 25), la mediana, la media, el cuartil superior (percentil 75) y el valor máximo.

Los cuartiles son los valores que dividen los datos en cuatro partes iguales o cuartos. Los percentiles, en cambio, dividen los datos en cien partes iguales. De esta forma,  el cuartil inferior (Q1) se corresponde con el percentil 25 y el cuartil superior (Q3) con el percentil 75.

· Caja: La longitud de la caja representa la distancia entre los percentiles 25 y 75: el tramo de la escala que va desde el primer cuartil al tercer cuartil de la distribución (rango intercuartílico o rango intercuartil). Esto incluye el 50 % de las observaciones centrales.
· Punto interior de la caja: Representa la media.
· Línea interior de la caja: Representa la mediana.

 

Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.
Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.

 

· Líneas verticales (bigotes): Representan los valores máximos (corte superior) y mínimos (corte inferior) del conjunto de datos. Sirven como referencia para ubicar las observaciones que están por fuera del 50% central de la distribución. Por tanto, estos diagramas descriptivos son muy valiosos para observar los valores atípicos (‘outliers’) y las dispersiones de los puntos con respecto a los percentiles.

Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.

John Wilder Tukey

Tukey fue un polifacético científico: matemático, químico y estadístico. En 1977 publicó el libro ‘Exploratory Data Analysis’ (‘EDA) en el cual propone una nueva didáctica de la enseñanza de la estadística descriptiva mediante innovadoras herramientas visuales.

 

El termino 'software' fue usado por primera vez por John Wilder Tukey en el año 1957.
El termino ‘software’ fue usado por primera vez por John Wilder Tukey en el año 1957, creador del diagrama de caja.

 

Exploratory Data Analysis , 1977
Exploratory Data Analysis , 1977

Exploratory Data Analysis
John W. Tukey.
1977
Addison-Wesley Publishing Company.
688 pp.

CHARTS: Análisis predictivo y el gráfico de velas japonés (Candlestick Chart)

D3 Candlestick Chart

El gráfico de velas japonés (‘Japanese candlestick chart’) es una gráfica de barras avanzada y densa de información utilizada para mostrar los movimientos del precio de índices bursátiles, productos derivados o tipos de cambio y establecer una predicción en su curva.

Gráfico de velas o de Candlesticks
Gráfico de velas o de Candlesticks

Generalmente, cada vela muestra un día; así, un gráfico mensual suele recoger los veinte días de negocio representados en 20 velas que muestra los valores de apertura, de cierre, máximos y mínimos.

Hoja de excel que recoge en columnas los valores de apertura, cierre, máximo y mínimo.
Hoja de excel que recoge en columnas los valores de apertura, cierre, máximo y mínimo.
Estructura de las velas o 'Candlesticks'
Estructura de las velas o ‘Candlesticks’

Origen japonés
Este tipo de gráfico fue desarrollado en el siglo XVIII por Munehisa Homma (1724-1803). En 1697 se estableció el primer mercado de futuros en Osaka: la bolsa del arroz de Dojima (‘Dojima Rice Exchange’). En 1755, el comerciante escribió el libro orientado hacia la psicología de los mercados ‘The Fountain of Gold – The Three Monkey Record of Money’.

Munehisa Homma  (1724-1803) fue un comerciante de arroz japonés; el padre del gráfico de velas.
Munehisa Homma (1724-1803) fue un comerciante de arroz japonés; el padre del gráfico de velas.
Japanese Candlestick Charting Techniques: A Contemporary Guide to the Ancient Investment Techniques of the Far East, Second Edition
Japanese Candlestick Charting Techniques: A Contemporary Guide to the Ancient Investment Techniques of the Far East, Second Edition
Las velas japonesas (Finanzas (valor)) Tapa blanda – 15 mar 2014 de Steve Nison  (Autor)
Las velas japonesas (Finanzas (valor)) Tapa blanda – 15 mar 2014
de Steve Nison .

Steve Nison, analista técnico, lo recogió en su libro ‘Japanese Candlestick Charting Techniques‘ – 1991, New York Institute of Finance– y lo dio a conocer en Occidente (el libro se conoce como ‘la biblia del gráfico de velas’).

Patrones clásicos del gráfico de velas
Patrones clásicos del gráfico de velas

Análisis visual y predicción de los mercados
Los gráficos de vela se han popularizado entre analistas financieros y bursátiles porque ofrecen una imagen visual muy clara de la evolución de los mercados. En comparación con un gráfico de barras normal, las velas ofrecen más profundidad en la información y en la dirección del mercado, los datos son más precisos y visualmente son más informativos. De un vistazo se obtiene una imagen de los movimientos de una acción y los analistas pueden comparar los precios de apertura y cierre, así como también los valores máximos y mínimos.

El uso del color (blanco y negro, rojo y verde) ayuda enormemente a distinguir las tendencias y establecer patrones e hipótesis, especialmente a corto plazo.

Gráfico de Heinkin-Ashi
Gráfico de Heinkin-Ashi

El caso del gráfico de vela Heikin-Ashi (Heikin-Ashi Candlestick)
En japonés, ‘Heikin’ significa ‘media’ y ‘Ashi’ es ‘paso’. Heinkin-Ashi representa los pasos medios de los precios y es parecido al gráfico japonés normal. En el primero el color de los rectángulos es blanco cuando el cierre del día anterior está por debajo de la apertura del día (tendencia alcista). Ala inversa, si el cierre del día anterior está por encima del cierre actual, entonces el rectángulo se visualiza en negro (tendencia a la baja). Los analistas financieros interpretan los múltiples patrones visuales que ofrecen cada gráfica para obtener el sentimiento del mercado (indecisión, Doji, de martillo, invertido, el ahorcado, el chico abandonado, nubes oscuras, estrella de la noche).

En el gráfico de velas Heiken Ashi, los patrones quedan más claros cuándo el precio está subiendo y cuándo el precio está bajando pero, según algunos analistas, se pierde precisión a cambio de comodidad visual.


Referencias

Gráficos de Velas o “Candlesticks”

Heikin-Ashi Candlesticks

Introduction to Japanese Candlestick Patterns, Traderslog (PDF)

Manual de Candlestick, Ustin (pdf en castellano).

Candlestick charts using D3, André Dumas

D3 Candlestick Chart, Codepen

DATA: Entrevista a Ben Welsh, The Data Desk

Ben Welsh y 'The Data Desk' de Los Ángeles Times

Entrevista realizada por Juantxo Cruz en enero de 2015 a Ben Welsh, periodista de datos y database producer en LA Times.

Ben Welsh y ‘The Data Desk’ de Los Ángeles Times

THE DATA DESK

¿Qué es el Data Desk de Los Ángeles Times?
Ben: Yo trabajo en LA Times en California en un equipo denominado ‘The Data Desk’.
‘The Data Desk’ comenzó más como una idea que cómo una organización estructurada, se trata de un lugar común para trabajar con datos y se extiende entre varios departamentos de Los Ángeles Times, con gente que trabaja en el sitio web, gente que trabaja en el periodismo de investigación, gente que trabaja en el departamento de gráficos.

Entonces, es como una zona de conexión entre los periodistas, un punto de encuentro. ¿Cómo se organiza este flujo de conexiones?
Ben: Para mí lo importante es la capacidad de crear relaciones entre los grupos que componen la organización, personas que están interesadas en utilizar los datos para encontrar y contar historias que nos serían posibles de otra manera. Después vienen los ajustes de organización para ver quién va a hacer qué y o quién va a escribir la historia. Lo importante es la idea de utilizar los datos para hacer que las historias aparezcan y encontrar las personas en la organización que estén de acuerdo con ello.

HERRAMIENTAS DE LOS PERIODISTAS

¿Cuáles son las principales herramientas que utilizáis en ‘The Data Desk’?
Ben: En nuestro equipo tenemos desarrolladores web, que trabajan todo el día con editores de texto y entornos de código abierto para construir sitios web, hasta personas que son más analistas y reporteros de investigación que utilizan Microsoft Excel y otros programas que hacen estos objetivos más sencillos sin necesidad de programar. Así es que es muy variado, dependiendo de la persona y en lo que esté trabajando tú puedes utilizar cualquier herramienta.

Y tú, ¿cuál es la herramienta que dominas mejor?
Ben: Personalmente, yo prefiero el código abierto por la calidad es muy alta, el coste es muy bajo, un coste cero, y me permite conseguir todo lo que quiero sin coste alguno.

(Ver aquí algunas de sus aplicaciones)

EL EQUIPO DE DATOS
¿Cuántas personas participan en el equipo? ¿Son todos periodistas?
Ben: Somos alrededor de 500 personas especializadas en diversas tareas y en trabajando con datos. Sí, somos periodistas. Escribimos historias además de código y trabajamos con los reporteros para darle forma a las historias y contarlas.

PROGRAMACIÓN Y PERIODISMO

Tus aplicaciones muestran una complejidad técnológica importante. ¿Has estudiado ingeniería o alguna rama tecnológica especializada?
Ben: No tengo una educación formal en computación, mucha gente sabe programar, pero yo empecé a interesarme por los ordenadores en la escuela secundaria cuando era joven.

Nunca fue un objetivo para mi ser programador, pero estaba interesado en programación como usuario y entonces cuando empecé a trabajar como un periodista tradicional enseguida vi las posibilidades que tenía para encontrar historias con unos conocimientos mínimos de programación.

¿Cuáles eran tus conocimientos de programación cuando empezaste en el mundo del periodismo de datos en 2007?
Ben: Estudié en la Universidad de Misuri en EEUU. Allí había un grupo especial, llamado NICAR – ‘National Institute por Computer Assisted Reporting’-. No era un grado o un programa educativo. Es un grupo profesional dentro de la Universidad que realiza sesiones de entrenamiento con los periodistas para aprender programación. Ahí trabajé como estudiante graduado para ayudar a la organización. Tenía el tiempo, la gente y la ayuda para ser convertirme en un programador profesional.


BASES DE DATOS Y PERIODISMO

Afirmas que, trabajando con bases de datos, si haces las cosas bien, no se puede mentir. ¿Cuáles son los errores más comunes trabajando o entrevistando las bases de datos?
Ben: No entender cómo fue organizada o cómo fue creada la base de datos y cuáles son sus puntos débiles. Todos los procesos de creación de bases de datos tienen problemas, fallos, agujeros, puntos que hay que revisar, que pueden hacer que el análisis sea equivocado. Si la base de datos tiene duplicados y no tienes cuidado con esto, si los datos son alterados y no te das cuenta, si la persona que la creó falló en la forma de almacenar los datos y no te das cuenta o haces una mala interpretación.

¿Y en cuanto a la estadística?
Ben: Tu operación matemática puede ser perfecta cuando se hace la suma, pero tu interpretación, en la declaración que puedas hacer, quizás sea equivocada, excesiva o malinterpretada.

También son importantes las fuentes…
Ben: Tienes que conocer tus datos, cómo se consiguieron, cuáles fueron las observaciones antes de hacer una afirmación.

Mapa interactivo desarrollado por Ben Welsh. Palewire, Applications.
Mapa interactivo desarrollado por Ben Welsh. Palewire, Applications.

PYTHON Y ROBOTS COMPUTACIONALES
Estáis programando robots con el lenguaje Python para construir bases de datos y encontrar historias. Cuéntanos más sobre esto.
Ben: Un ejemplo puede ser los arrestos realizados de la Policía de Los Ángeles. Todos los días por la mañana la policía envía un correo electrónico con la lista de las personas que han detenido el día anterior. Tenemos una secuencia de comandos, un robot si lo quieres llamar así, en realidad es un programa escrito con Python y, que para ser honesto, es muy modesto, que descarga el fichero y lo incorpora a la base de datos para hacerlo accesible a los reporteros y utilizarlo en búsquedas e investigaciones.

También pregunta automáticamente a los datos sobre una serie de cuestiones, como por ejemplo una serie de profesiones, como políticos o productores de cine. Si han sido arrestados, el programa manda un correo con un aviso a todo el mundo. Si el arresto ha sido consecuencia de un asesinato o se trata de un acontecimiento grave, estos sucesos tienen una señal especial en el programa para avisarnos.

¿Son como máquinas que hacen el trabajo sucio…?
Ben: Lo que realmente estás haciendo cuando escribes este tipo de código, la secuencia de comandos, lo que buscas son las preguntas que los periodistas harían siempre a esta base de datos.

Ben Welsh estuvo en Madrid el pasado mes de diciembre asesorando el II Taller de Periodismo de Datos organizado por Mar Cabra y Adolfo Antón Bravo, del grupo de periodismo de datos de MediaLab Prado, un centro cultural dependiente del Área de Las Artes, Deportes y Turismo del Ayuntamiento de Madrid.

WEB: Obama en digital

The Washington Post
A Second Term
Maryland voters approve same-sex marriage
Obama´s second term

2012 Presidential Election Results

The New York Times.
Obama´s Night
Electoral Advantage Holds; Popular Vote is Tight
Voters Approve Same-Sex Marriage in Two States (Maine and Maryland)
One State Legalizez Marijuana (Washington); another on Verge (Colorado)
President Obama’s Success

President Results.

LA Times
Obama Prevails.
Can Both Sides Learn to Compromise?
Maybe stalemate´s latest victory means voters will finally win.
The tough road ahead.

LATimes Results.

Wall Street Journal
U.S. Voters Give Obama Second Term
Battlegrounds Bring Victory

Hope Over Experience

Interactive.

STATS: Abandono escolar, Comisión Europea

COMMUNICATION FROM THE COMMISSION TO THE EUROPEAN
PARLIAMENT, THE COUNCIL, THE EUROPEAN ECONOMIC AND SOCIAL
COMMITTEE AND THE COMMITTEE OF THE REGIONS

Tackling early school leaving: A key contribution to the Europe 2020 Agenda

Gracias por visitar el sitio de Juantxo Cruz

En España, un 31,2% de la población de entre 18 y 24 años tienen un nivel máximo de estudios de 4º de ESO. Abandonan.

Gracias por visitar el sitio de Juantxo Cruz

El objetivo para 2020 es alcanzar el 10% en toda la UE.
Good luck!

STATS: Cuantiles, INE

Decil de salarios del empleo principal. Encuesta de Población Activa (EPA)
Años 2006–2009
INE

Gracias por visitar el sitio de Juantxo Cruz

CUANTILES (o “cuantilas”): son medidas de posición que se determinan mediante un método que determina la ubicación de los valores que dividen un conjunto de observaciones en partes iguales.
Se puede dividir la distribución en cuatro, en diez o en cien partes.

MEDIANAS: divide a un conjunto de valores dados en dos partes iguales, y su posición es, en consecuencia, a la mitad del mismo.

CUARTILES (o “cuartila”): cuando dividen la distribución en cuatro partes.

Los DECILES (o “decila”) son los nueve valores que dividen una serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%… y al 90% de los datos.

CENTILES o PERCENTILES (o “centila”): son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales.

METODOLOGÍA INE:
Para calcular los deciles salariales se procede de la siguiente forma: se ordenan todos los asalariados según la cuantía del salario mensual percibido y se dividen después en diez grupos iguales, es decir, con el 10% de los trabajadores en cada grupo. El primer decil salarial corresponde al primer grupo de trabajadores, o sea al 10% con menores salarios; el segundo, al 10% siguiente, y así sucesivamente hasta llegar al décimo decil correspondiente al 10% de trabajadores con mayores ingresos. Cada decil viene definido por su media (salario medio del grupo) y por los salarios inferior y superior que lo delimitan.

Gracias por visitar el sitio de Juantxo Cruz

Las diferencias entre el sector público y privado.
Así, en el sector público el grupo que gana más de 2.489 euros al mes supone el 46,8% del total de asalariados.
En el sector privado, son el 13,5%.

Y en las rentas bajas, en el sector público, los que ganan entre 707 euros y 1.000 euros son un 6% mientras que, en el sector privado, son un 23,4%.

Explicación del INE: ‘La pérdida de empleo en el sector privado asociada a la situación económica y el nivel de estudios superior exigido en buena parte del sector público explica esta evolución’.

Así, uno: en el sector público no se pierde empleo.
Dos: ¿nivel de estudios superior?