La cara oculta de los diagramas de relaciones

Visualizing graph Data
Visualizing graph Data

Corey L. Lanun

Manning Publications Co., 2017

208 pp $44

 

El experto en visualización Corey Lanum (Boston,  EEUU) nos acerca en este libro los conceptos principales de los diagramas de relaciones a través de una serie de introducciones prácticas y elementales a tecnologías como Gephy, Netlytic, Keylines y D3.

 

Apariencia de la aplicación Gephi para generar visualizaciones de relaciones.
Apariencia de la aplicación Gephi para generar visualizaciones de relaciones.

 

Gephy, Keylines y D3 aportan tres aproximaciones distintas al mundo de los ‘networks graphs’. Gephy es un software libre y gratuito que se descarga en el ordenador y permite, junto con la herramienta de análisis Netlytic, realizar este tipo de gráficos a través de un cuadro de mandos interactivo.

 

Apariencia de una visualización realizada con la librería de Keylines.
Apariencia de una visualización realizada con la librería de Keylines.

 

Keylines es una librería de javascript especializada en conectar miles de nodos a través de líneas para establecer relaciones y estudios sobre esa red. La desilusión: es una librería de pago y, por ello, no se podrán realizar los ejercicios incluidos en el libro. No preocuparse por ello.

 

Apariencia estática de una visualización realzada con la librería de javascript D3.
Apariencia estática de una visualización realzada con la librería de javascript D3.

D3 es la librería libre y gratuita de javascript más comentada en los  últimos años en los sitios de visualización y, por tanto, sólo añadiremos que el libro le dedica el último apéndice a modo de introducción breve en sus fórmulas para trabajar con nodos.

Corey Lanun (Cambridge Intelligence) nos enseña a organizar y construir una visualización de nodos a través de ejemplos sobre seguridad e inteligencia, seguridad en la red, lucha contra el fraude o infraestructuras sociales o tecnológicas.

El lector interesado puede seguir, en la segunda parte de este manual,  los elementos básicos de una base de datos, adentrase en el mundo de la interacción con la visualización y los mapas,  jugar con el factor tiempo y conocer los principales problemas de la navegación en los gráficos de nodos.

El contenido de este libro va mucho más allá que un sencillo manual técnico. Sus páginas contienen una buena guía sobre visualización y muy buenos ejemplos y consejos. Como muestra este último botón: ‘Los mejores diseños de visualizaciones llegan a través de conocer a los usuarios y las preguntas que se deben estar haciendo con los datos’. Lo dice Corey Lanun.

 

 

 

Cómo visualizar los grupos de interés que están influyendo en tu proyecto

Mapas de los círculos de interés (gestión estratégica de los

Cuando hablamos de los grupos de interés, realmente ¿de qué estamos tratando? ¿Es posible establecer u diálogo con ellos o gestionarlos de alguna manear? Una parte importante en la gestión estratégica de los activos intangibles de una empresa es el conocimiento de las partes interesadas en el diseño de un servicio.

Estas partes interesadas son individuos o grupos de personas que pueden impactar o ser afectados por el diseño y la prestación de un servicio existente o futuro. A la hora de gestionar la reputación corporativa es imprescindible conocer a los potenciales clientes y a las partes interesadas, a quiénes quizás nunca se les prestó atención.

Primer paso:  Identificar a los agentes implicados

Todo producto debe adaptarse a su público objetivo, por ello, tenemos que determinar el público al que deseamos llegar por medio de análisis cualitativos proporcionados por encuestas temáticas, tormentas de ideas y la observación para recopilar datos. ¿Quién es el público de nuestro producto? ¿Está preparada la audiencia para recibir la información que se le proporciona? ¿Qué necesitan aprender para usar la información de manera efectiva? ¿Que es lo que ya entienden? Adicionalmente se pueden dar un enfoque cuantitativo para confirmar los primeros análisis y realizar árboles, diagramas de Venn, matrices y mapas de la compañía y las empresas asociadas.

Se trataría de poner nombres y caras sobre los miembros de la sociedad que son de interés para los negocios y así reforzar la credibilidad de la información que se les presenta.

Las partes interesadas clave: Aquellas personas o grupos que tienen una influencia significativa en el diseño del servicio o que se ven afectados significativamente por el mismo y cuyos intereses e influencia deben ser reconocidos para asegurar su éxito. Un grupo o individuo clave podría poner fin a un determinado proyecto (alta dirección).

El entorno interno: Son personas o grupos de personas que son parte de la organización (accionistas, empleados, directivos, personas que integran la organización).

El entorno externo: Son personas o grupos de personas con ‘intereses creados’ en la organización (activistas, inversores, proveedores, consumidores, clientes, autoridades reguladoras, ONGs, gobiernos y Administraciones Públicas, competidores, entorno social, entorno ambiental).

Conocer los cuatro modelos de mapeo

Un mapa de grupos de interés es una herramienta que ayuda a identificar y clasificar de manera visual a las distintas partes interesadas en función de diferentes parámetros y atributos: interés, influencia, legitimidad, participación, poder o creatividad.

Modelo de Gardner (1986): Matriz de poder y dinamismo

El modelo de mapa de grupos más común es la matriz de poder de James R. Gardner que clasifica a los individuos y grupos de acuerdo al poder que poseen en las estrategias de la empresa y su capacidad para tomar decisiones (dinamismo) sobre una matriz.  Señala la dirección en la que se debe canalizar el esfuerzo “político” o de gestión antes de tomar algunas medidas o acciones.

 

Matriz genérica de poder e interés (Gardner, Mendelow)
Matriz genérica de poder e interés (Gardner, Mendelow)

 

Modelo de Mendelow (1991):  Matriz de poder e interés

El modelo de Aubrey L. Mendelow (Kent State University, Ohio) presenta, como Gardner, una matriz  para identificar a los grupos que influyen en la organización. Posee dos ejes críticos: el potencial de estos actores para influir en  la organización y el potencial de estos grupos de interés de cooperar con la organización.

Diagrama de Venn en el cual se relacionan las variables poder, legitimidad y urgencia (Modelo de Mitchell, Agle y Wood)
Diagrama de Venn en el cual se relacionan las variables poder, legitimidad y
urgencia (Modelo de Mitchell, Agle y Wood)

Modelo de Mitchell, Agle y Wood (1997): Diagrama de Venn

El modelo clasifica a los ‘stakeholders’ en siete tipos según tres variables, poder, legitimidad y urgencia que se resume en un diagrama de Venn.

La variable ‘poder’ significa la capacidad del ‘stakeholder’ de influenciar en la organización. La variable ‘legitimidad’ se refiere a la relación y a las acciones del grupo de poder con la organización en términos de participación, propiedad o conveniencia. La ‘urgencia’ alude a los requisitos que los grupos o individuos plantean a la organización en términos de urgencia y oportunidad.

Así, la combinación de estos tres atributos  lleva a siete tipos de ‘stakeholders’: latentes, discrecionales, reclamantes, dominantes, peligrosos, dependientes y definitivos (jugadores clave).

Modelo de Bourne & Walker (2005):  El círculo de poder

El diagrama del círculo de partes interesadas sirve para identificar y visualizar la influencia relativa de cada uno de los principales interesados ​​y planificar formas de interactuar y gestionar sus expectativas o contribuciones.

 

El diagrama del círculo de partes interesadas: proximidad, influencia y poder.
El diagrama del círculo de partes interesadas: proximidad, influencia y poder.

 

Para desarrollar el “círculo”, las partes interesadas se ponderan según tres características:

Eje del círculo de poder:  Algunas partes interesadas pueden ‘matar’ el proyecto usando su propio poder; en cambio, otras partes interesadas tienen el poder de cambiar o dañar el proyecto, pero no pueden por sí mismas cancelarlo o ‘matarlo’.

Eje de proximidad: Este eje considera cuál es la asociación de una parte interesada con el día a día del proyecto. El pequeño círculo en el centro del diagrama representa el proyecto. El espacio entre los dos círculos representa la esfera de influencia del proyecto en toda su comunidad de actores. La proximidad de una parte interesada al proyecto está representada por la proximidad de su segmento al proyecto en el centro.

Eje de urgencia o importancia: La anchura del arco representa la cantidad de urgencia o importancia atribuida a una parte interesada desde la perspectiva de los equipos (es decir, la probabilidad de que el ‘stakeholder’ use su poder), cuanto más amplio sea el segmento, mayor será la urgencia.

 

 

 

Referencias

James R. Gardner, Rober Rachlin, H. W. Allen Sweeney: Handbook of Strategic Planning (1986)

ehow.com: What Is a Stakeholder Map?

CSR Europe: The Sustainable Development Goals (SDGs): The value for Europe.

ORSE: Observatoire de la responsabilité sociétale des entreprises.

Imperial College London: Project Stakeholder Analysis (doc template)

Blackwell Publishing: Construction Stakeholder Management (pdf).

Project Management Institute: Visualizing stakeholder influence (article, 2006)

CHARTS: El diagrama de caja y bigotes de John W. Tukey

Exploratory Data Analysis, John W. Tukey, 1977

John W. Tukey (1915-2000), de la Universidad de Princeton (EEUU), definió en 1970 el diagrama de caja (‘box-plot’ en inglés). Este gráfico se utiliza cuando deseamos explicar cómo se distribuyen una serie de datos cuantitativos. Otras opciones para reflejar distribuciones son los histogramas y las curvas de distribución. En comparación con estos últimas, el gráfico de caja es más sencillo de entender, más claro y, por tanto, hace más rápida la comprensión visual.

 

Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977
Gráfico de caja y bigotes de John W. Tukey comparando los puntos más altos de cada estado de EEUU y altitudes de algunos volcanes, 1977

 

Morfología del diagrama de caja

En su forma más simple, el gráfico de caja representa cinco datos estadísticos en una sola dimensión: el valor mínimo, el cuartil inferior (percentil 25), la mediana, la media, el cuartil superior (percentil 75) y el valor máximo.

Los cuartiles son los valores que dividen los datos en cuatro partes iguales o cuartos. Los percentiles, en cambio, dividen los datos en cien partes iguales. De esta forma,  el cuartil inferior (Q1) se corresponde con el percentil 25 y el cuartil superior (Q3) con el percentil 75.

· Caja: La longitud de la caja representa la distancia entre los percentiles 25 y 75: el tramo de la escala que va desde el primer cuartil al tercer cuartil de la distribución (rango intercuartílico o rango intercuartil). Esto incluye el 50 % de las observaciones centrales.
· Punto interior de la caja: Representa la media.
· Línea interior de la caja: Representa la mediana.

 

Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.
Los gráficos de caja muestran un resumen de distribución de datos en muy poco espacio.

 

· Líneas verticales (bigotes): Representan los valores máximos (corte superior) y mínimos (corte inferior) del conjunto de datos. Sirven como referencia para ubicar las observaciones que están por fuera del 50% central de la distribución. Por tanto, estos diagramas descriptivos son muy valiosos para observar los valores atípicos (‘outliers’) y las dispersiones de los puntos con respecto a los percentiles.

Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Evolución de la potencia de salida (kwatts;). Cada gráfico de caja representa un día en concreto.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.
Morfología del gráfico de caja: el valor mínimo, el valor máximo, la mediana, el primer cuartil y el tercer cuartil de los datos.

John Wilder Tukey

Tukey fue un polifacético científico: matemático, químico y estadístico. En 1977 publicó el libro ‘Exploratory Data Analysis’ (‘EDA) en el cual propone una nueva didáctica de la enseñanza de la estadística descriptiva mediante innovadoras herramientas visuales.

 

El termino 'software' fue usado por primera vez por John Wilder Tukey en el año 1957.
El termino ‘software’ fue usado por primera vez por John Wilder Tukey en el año 1957, creador del diagrama de caja.

 

Exploratory Data Analysis , 1977
Exploratory Data Analysis , 1977

Exploratory Data Analysis
John W. Tukey.
1977
Addison-Wesley Publishing Company.
688 pp.

DATA: La oportunidad del análisis y la visualización de datos

Out of Sight, Out of Mind, pitchinteractive.com

Texto publicado en UNIR Revista el 28 de enero de 2014.

Sin duda, el tratamiento de los datos se ha convertido en una poderosa herramienta en todos los frentes del mundo de la comunicación. ¿De dónde salen todos estos datos? ¿Quién está detrás de ellos? Podemos pensar que la ciencia de los datos la desarrollan increíbles mentes pensantes de los departamentos de Ingeniería y Ciencia Computacional en las más importantes compañías de tecnología. Y por un lado es así. Los ingenieros en computación, los estadísticos y los matemáticos han encontrado un nuevo continente en el desarrollo de aplicaciones que manejan millones de datos. Es lo que se conoce como ‘Big Data’. Sus trabajos no deben quedarse en el manejo de las cifras: los números hay que convertirlos en algo que se pueda consumir.

Hablamos de la visualización de los datos a través de lenguajes de programación. El principal lenguaje de programación del lado del cliente e implementado por todos los navegadores (Chrome, Safari, Explorer…) es JavaScript. Así, el desarrollo de este lenguaje en los últimos años ha disfrutado de una evolución exponencial. Cada día nacen nuevas librerías del lenguaje para tareas de lo más diversas y especializadas.

Para la visualización de datos, la librería más dinámica y estructurada para la visualización de cantidades se llama ‘Data-Driven Documents –D3–’. Estas dos letras, D3, están de moda entre las empresas que se dedican a la presentación de datos en el navegador. Buscan ‘chicos D3’: Urgente. Obviamente, se trata de un perfil tecnológico; una persona que sepa programar, que tenga un buen conocimiento de Javascript y controle los lenguajes de la World Wide Web moderna (HTML5) y sus hojas de estilo (CSS).

Sin embargo, ser un gran programador no garantiza ser un buen contador de historias. Y aquí se abre la gran oportunidad para los periodistas en cualquiera de sus ramas. Se trata de encontrar la respuesta adecuada a cuestiones a veces muy complicadas y darles una solución sencilla.

 

Ejemplo de visualización de datos:

Out of Sight, Out of Mind Pitch Interactive, Berkely, California.
Out of Sight, Out of Mind Pitch Interactive, Berkely, California.

 

Ejemplo de estadística de investigación:

 Ejemplo de estadística de investigación In Climbing Income Ladder, Location Matters The New York Times, NY, EEUU
In Climbing Income Ladder, Location Matters The New York Times, NY, EEUU

 

Todo trabajo de investigación debe comenzar por la formulación de preguntas relevantes para luego identificar, obtener y transformar los datos en algo manejable que pueda utilizarse en infografías, gráficos, visualizaciones y textos escritos.

La cultura del ciudadano está cambiando: ahora exige que las información que se aporta esté sustentada en datos. Si no se los damos, el mismo puede consultar en la red lo que están diciendo otros, y siempre tendrá más fuerza un argumento con los pies en los datos que un comentario o opinión sin ellos. Ahora, los datos y su análisis ya no son exclusivos de las grandes compañías tecnológicas como Google, eBay o Facebook: prácticamente todo tipo de industria, grande o pequeña, necesita el análisis de datos para convencer al ciudadano y mejorar el rendimiento de sus negocios.

 

Se necesitan programadores, claro, pero también gente que sepa como hacer las preguntas adecuadas, qué datos recoger, cómo tratarlos para encontrar los datos que nos sirvan, como hacer un resumen de ellos y finalmente, qué herramientas existen para presentarlos en sociedad. A veces, tendremos que echar mano de programadores especializados en visualización; otras, bastará una infografía sencilla realizada por uno mismo en Excel o Tableu.

La comunicación es un aspecto de la nueva cultura de la red que interesa a todo tipo de industria y actividad, desde educadores y estudiantes hasta agentes de publicidad. Los personas que se dedican o quieran dedicarse a la comunicación deben conocer cómo trabajar con distintos perfiles en el desarrollo de los gráficos y el análisis de datos.

Muchas veces, las empresas echan en falta la penetración de sus informe en su propia empresa o hacia el exterior. La mayoría de las veces, la causas se encuentran en la mala presentación de los conceptos, la poca o nula información visual y la gran extensión de los textos. En una sociedad sin tiempo, es imprescindible el resumen de conceptos y ofrecer una alternativa visual. Los sectores más interesados en el análisis de los números son las empresas de análisis de los consumidores (marketing, análisis social, consultoría, gobiernos), de los resultados de las máquinas (ingeniería, medicina, topografía, finanzas), de los contenidos (medios de comunicación, educación) y de la investigación (I+D, alta tecnología). Los profesionales con más proyección en la visualización de información son periodistas, documentadores, directores de arte, diseñadores y desarrolladores de páginas web que deben presentar la información de forma coherente y digerible para el usuario final. En definitiva, personas que sepan encontrar el valor en los datos para después presentarlo de forma eficaz.

Instructor en el Taller de Visualización para enCastillaLaMancha.es, 2017

Curso de formación sobre Visualización de Datos para el diario digital encastillalamancha.es.

Febrero de 2017, Toledo

Consultoría gráfica

Prodigioso Volcán

 

EnCastillaLaMancha.es
EnCastillaLaMancha.es

Encastillalamancha.es

Encastillalamancha.es es un periódico digital diario que se edita en Castilla-La Mancha con información, opinión y análisis bajo los principios de libertad, pluralidad e independencia.

Directora: 
Mar G. Illán (margillan@encastillalamancha.es)

Director comercial:
 Valentín Salamanca (valentinsalamanca@encastillalamancha.es)

Redactor jefe:
César del Río (cesardelrio@encastillalamancha.es)

Redactores:
 Rebeca Arango (fotografía) (rebecaarango@encastillalamancha.es)
, Sonia Martín (soniamartin@encastillalamancha.es), 
Elena Llave (elenallave@encastillalamancha.es), 
Ramón de Juan (ramondejuan@encastillalamancha.es)

Publicidad:
 Cristina Sánchez (cristinasanchez@encastillalamancha.es)

Administración: 
Estrella Gómez Illan (estrellagomez@encastillalamancha.es)

Instructor en el Taller de investigación, fuentes, redacción y visualización, Monterrey 2015

Taller de investigación, fuentes, redacción y visualización

Instructor del módulo de visualización en Taller de investigación, fuentes, redacción y visualización que tuvo lugar del 29 de junio al 3 de julio de 2015 en Monterrey, México.

 

Taller de investigación, fuentes, redacción y visualización
Taller de investigación, fuentes, redacción y visualización

 

El taller estuvo dirigido por Antonio Rubio.

• Antonio Rubio (Doctor y director del Máster en Periodismo de El Mundo/Universidad CEU).

• Antonio Delgado (periodista especializado en datos).

•  Juantxo Cruz (comunicación visual).

UNIR (2013-2015)

UNIR, La universidad online a distancia.

En Octubre de 2013 me incorporé al equipo de UNIR Revista para la realización de especiales multimedia, diseño web, gráficos. Además, durante ese periodo fui el coordinador del Máster de Investigación y visualización de datos.

Portada digital de UNIR Revista.
Portada digital de UNIR Revista.

Equipo:
DIRECCIÓN: Enrique Infante e Ignacio Garrido.
DIRECCIÓN MULTIMEDIA: Adriano Morán
GRÁFICOS INTERACTIVOS: Paula Guisado y Juantxo Cruz
DISEÑO: José Antonio Pérez y Juantxo Cruz
INVESTIGACIÓN: Juantxo Cruz y Paula Guisado
REDACCIÓN: Borja Gutiérrez, Gema Sánchez de la Nieta, María Sorribes Catret.
EDICIÓN, IMAGEN Y SONIDO: Javier Álvarez y Adriano Morán
ILUSTRACIONES: Javier Álvarez

Coordinador del Máster Universitario en Periodismo de Investigación, Datos y Visualización, UNIR 2015

UNIR, La universidad online a distancia.

Puesta en marcha del Máster Universitario en Periodismo de Investigación, Datos y Visualización.
Universidad: UNIR, Universidad Internacional de la Rioja.
ETCS: 60
Fechas: Octubre de 2013-febrero de 2015
Lugar: Madrid.
Puesto: Adjunto a la Directora Académica del Máster en Periodismo de Investigación, Datos y Visualización, Marian Chaparro.
Funciones: Elaboración del temario para el campus virtual y búsqueda de profesores universitarios para:

• Extraer de las fuentes los datos relevantes y generadores de noticia.
• Transformar datos en historias.
• Adquirir una visión global y estratégica de la narración digital.
• Informar de forma clara, fácil y verificable.
• Visualizar y publicar los datos en gráficos y textos periodísticos.
• Desarrollar el razonamiento estadístico.
• Utilizar el software necesario para la construcción de noticias a través del periodismo de datos.
• Coordinar los diferentes perfiles involucrados en la investigación: periodistas, infografistas, programadores y desarrolladores.

DATA: Entrevista a Ben Welsh, The Data Desk

Ben Welsh y 'The Data Desk' de Los Ángeles Times

Entrevista realizada por Juantxo Cruz en enero de 2015 a Ben Welsh, periodista de datos y database producer en LA Times.

Ben Welsh y ‘The Data Desk’ de Los Ángeles Times

THE DATA DESK

¿Qué es el Data Desk de Los Ángeles Times?
Ben: Yo trabajo en LA Times en California en un equipo denominado ‘The Data Desk’.
‘The Data Desk’ comenzó más como una idea que cómo una organización estructurada, se trata de un lugar común para trabajar con datos y se extiende entre varios departamentos de Los Ángeles Times, con gente que trabaja en el sitio web, gente que trabaja en el periodismo de investigación, gente que trabaja en el departamento de gráficos.

Entonces, es como una zona de conexión entre los periodistas, un punto de encuentro. ¿Cómo se organiza este flujo de conexiones?
Ben: Para mí lo importante es la capacidad de crear relaciones entre los grupos que componen la organización, personas que están interesadas en utilizar los datos para encontrar y contar historias que nos serían posibles de otra manera. Después vienen los ajustes de organización para ver quién va a hacer qué y o quién va a escribir la historia. Lo importante es la idea de utilizar los datos para hacer que las historias aparezcan y encontrar las personas en la organización que estén de acuerdo con ello.

HERRAMIENTAS DE LOS PERIODISTAS

¿Cuáles son las principales herramientas que utilizáis en ‘The Data Desk’?
Ben: En nuestro equipo tenemos desarrolladores web, que trabajan todo el día con editores de texto y entornos de código abierto para construir sitios web, hasta personas que son más analistas y reporteros de investigación que utilizan Microsoft Excel y otros programas que hacen estos objetivos más sencillos sin necesidad de programar. Así es que es muy variado, dependiendo de la persona y en lo que esté trabajando tú puedes utilizar cualquier herramienta.

Y tú, ¿cuál es la herramienta que dominas mejor?
Ben: Personalmente, yo prefiero el código abierto por la calidad es muy alta, el coste es muy bajo, un coste cero, y me permite conseguir todo lo que quiero sin coste alguno.

(Ver aquí algunas de sus aplicaciones)

EL EQUIPO DE DATOS
¿Cuántas personas participan en el equipo? ¿Son todos periodistas?
Ben: Somos alrededor de 500 personas especializadas en diversas tareas y en trabajando con datos. Sí, somos periodistas. Escribimos historias además de código y trabajamos con los reporteros para darle forma a las historias y contarlas.

PROGRAMACIÓN Y PERIODISMO

Tus aplicaciones muestran una complejidad técnológica importante. ¿Has estudiado ingeniería o alguna rama tecnológica especializada?
Ben: No tengo una educación formal en computación, mucha gente sabe programar, pero yo empecé a interesarme por los ordenadores en la escuela secundaria cuando era joven.

Nunca fue un objetivo para mi ser programador, pero estaba interesado en programación como usuario y entonces cuando empecé a trabajar como un periodista tradicional enseguida vi las posibilidades que tenía para encontrar historias con unos conocimientos mínimos de programación.

¿Cuáles eran tus conocimientos de programación cuando empezaste en el mundo del periodismo de datos en 2007?
Ben: Estudié en la Universidad de Misuri en EEUU. Allí había un grupo especial, llamado NICAR – ‘National Institute por Computer Assisted Reporting’-. No era un grado o un programa educativo. Es un grupo profesional dentro de la Universidad que realiza sesiones de entrenamiento con los periodistas para aprender programación. Ahí trabajé como estudiante graduado para ayudar a la organización. Tenía el tiempo, la gente y la ayuda para ser convertirme en un programador profesional.


BASES DE DATOS Y PERIODISMO

Afirmas que, trabajando con bases de datos, si haces las cosas bien, no se puede mentir. ¿Cuáles son los errores más comunes trabajando o entrevistando las bases de datos?
Ben: No entender cómo fue organizada o cómo fue creada la base de datos y cuáles son sus puntos débiles. Todos los procesos de creación de bases de datos tienen problemas, fallos, agujeros, puntos que hay que revisar, que pueden hacer que el análisis sea equivocado. Si la base de datos tiene duplicados y no tienes cuidado con esto, si los datos son alterados y no te das cuenta, si la persona que la creó falló en la forma de almacenar los datos y no te das cuenta o haces una mala interpretación.

¿Y en cuanto a la estadística?
Ben: Tu operación matemática puede ser perfecta cuando se hace la suma, pero tu interpretación, en la declaración que puedas hacer, quizás sea equivocada, excesiva o malinterpretada.

También son importantes las fuentes…
Ben: Tienes que conocer tus datos, cómo se consiguieron, cuáles fueron las observaciones antes de hacer una afirmación.

Mapa interactivo desarrollado por Ben Welsh. Palewire, Applications.
Mapa interactivo desarrollado por Ben Welsh. Palewire, Applications.

PYTHON Y ROBOTS COMPUTACIONALES
Estáis programando robots con el lenguaje Python para construir bases de datos y encontrar historias. Cuéntanos más sobre esto.
Ben: Un ejemplo puede ser los arrestos realizados de la Policía de Los Ángeles. Todos los días por la mañana la policía envía un correo electrónico con la lista de las personas que han detenido el día anterior. Tenemos una secuencia de comandos, un robot si lo quieres llamar así, en realidad es un programa escrito con Python y, que para ser honesto, es muy modesto, que descarga el fichero y lo incorpora a la base de datos para hacerlo accesible a los reporteros y utilizarlo en búsquedas e investigaciones.

También pregunta automáticamente a los datos sobre una serie de cuestiones, como por ejemplo una serie de profesiones, como políticos o productores de cine. Si han sido arrestados, el programa manda un correo con un aviso a todo el mundo. Si el arresto ha sido consecuencia de un asesinato o se trata de un acontecimiento grave, estos sucesos tienen una señal especial en el programa para avisarnos.

¿Son como máquinas que hacen el trabajo sucio…?
Ben: Lo que realmente estás haciendo cuando escribes este tipo de código, la secuencia de comandos, lo que buscas son las preguntas que los periodistas harían siempre a esta base de datos.

Ben Welsh estuvo en Madrid el pasado mes de diciembre asesorando el II Taller de Periodismo de Datos organizado por Mar Cabra y Adolfo Antón Bravo, del grupo de periodismo de datos de MediaLab Prado, un centro cultural dependiente del Área de Las Artes, Deportes y Turismo del Ayuntamiento de Madrid.