El Manejo de los Grandes Datos. Datos Abiertos, Big Data y el mito del Data Scientist. Parte II.

Por Adela P. Depetris

Un número en progreso continuo de compañías y gobiernos europeos cuentan ya con un CDO (siguiendo el estilo del CEO -Chief Executive Officer-, el CDO es un Chief “Data” Officer) lo que no hace sino enfatizar la necesidad y presión existentes para crear valor con la creciente cantidad de datos. Y no sólo en Europa: también el Presidente Obama de Estados Unidos cuenta con un CDO.

Hasta hace poco, en el sector público, sólo trabajaban con datos los empleados de las áreas de estadísticas y censos. Hoy no alcanza ese conocimiento para trabajar con Datos Abiertos o con Big Data. Este diagrama muestra la intersección de los grandes datos y los datos abiertos.

Se necesitan tanto habilidades “duras” como “blandas” (e-skills). Las habilidades “duras” son las técnicas, estadísticas y analíticas, junto con el dominio en un área específica de conocimiento para entender y derivar información de los datos. Primero se debe analizar el problema y pensar cuál es el mejor modo de resolverlo usando datos. El análisis de datos es hecho por estadísticos, mientras que la programación de algoritmos y el Machine Learning son habilidades técnicas (conocimientos de programación en un rango que puede ir desde lo básico hasta lo profundo de programación, así como de herramientas de nombres tales como Hadoop, SPSS o R). A las habilidades “duras” de hoy es imprescindible agregar las “blandas”, tales como: habilidad para la resolución de problemas, colaboración, curiosidad, creatividad y la capacidad de comunicar los resultados a los interesados. Como data scientist, investigador o entusiasta con ansias de desarrollar nuevos productos o nuevos servicios, la idea es trabajar con datos y obtener valor de ellos. Y es necesario ser capaz de construir un puente entre la informática, los negocios o la política ya que la capacidad de comunicar es la clave para unir los dos mundos ya sea se trabaje con empresas o gobiernos.

El punto no es hallar un científico de datos que puede trabajar todo el proceso por su cuenta. Por el contrario, crear un equipo de trabajo es el mejor camino. No todos necesitan ser capaces de aprender a programar para trabajar con datos abiertos, pero sí es recomendable cierto conocimiento de programación. Un equipo multidisciplinario donde se complementen las habilidades es la clave. Cada miembro puede tener un conocimiento básico de todos los aspectos necesarios, pero destacarse con excelencia en una sola área. Se trata de trabajar en un equipo con un liderazgo efectivo. Un buen líder facilita el cambio, reconoce el rendimiento de los miembros del equipo, estimula la colaboración entre ellos, se compromete con su desarrollo, y es capaz de gestionar decisiones y proveer dirección.

Los gobiernos serán los grandes re-usadores de datos abiertos. Sin embargo, necesitan asegurarse que los datos abiertos sean incorporados en la vida de todos los días de los ciudadanos y que no sean olvidados después de un par de años cuando el pico de la moda pase. El mejor camino es mostrar casos prácticos de creación de valor a través del re-uso de datos abiertos. Los gobiernos deberían liderar con el ejemplo y proactivamente compartir el re-uso hecho de los datos que ellos manejan, dando fe de la utilidad de los datos y estimulando la liberación y actualización de datasets.

 

(*) Diagrama y datos extraídos del informe analítico “E-skills y Datos Abiertos” del Portal europeo de datos http://www.europeandataportal.eu/

(**) Brecha de habilidades http://edsa-project.eu/addressing-the-big-data-and-data-science-skills-gap-at-ict2015/

El Manejo de los Grandes Datos. El Data Scientist. Parte I.

Por Adela P. Depetris

En Ciencia de Datos, se trata de descubrir cosas y construir conocimiento, lo que requiere preguntas motivantes sobre el mundo e hipótesis. Y que éstas sean convertidas en datos coleccionados, estructurados y testeables con métodos estadísticos. Por ello el ‘Data Scientist’ requiere distintas habilidades. Hace ya unos años Drew Conway concibió un diagrama de Venn para visualizar su definición de Científico de Datos o Data Scientist y las tres habilidades esenciales:

  •  Habilidades para ‘hacking de datos’ (área azul en el diagrama). Para ser un exitoso “hacker de datos” se requeriría poder manipular archivos de texto en la línea de comando, comprender operaciones vectorizadas, pensar algorítmicamente. Simplificando: destrezas que nos permiten obtener datasets “limpios”, estructurados, a partir de una masa ingente y a simple vista confusa de datos (Big Data).
  • Conocimiento de matemáticas y estadística (área en colorado).  Una vez conseguidos y limpios los datos, el siguiente paso es extraer contenido de ellos. Para hacer esto es necesario aplicar métodos estadísticos y matemáticos apropiados. También requiere saber qué es una regresión de MCO(*) y cómo interpretarla. El resultado será un modelo. Se exploran grandes cantidades de datos buscando mejorar un algoritmo que exprese su comportamiento en una especie de fórmula, que se usará para inferencias o en forma predictiva con otros datos.

Para Conway el uso de estas dos primeras habilidades converge en lo que se conoce como “machine learning” que siendo un uso poderoso de los datos, no es todavía Data Science o Ciencia de Datos. El agregó una habilidad adicional:

  • Expertise sustancial (área en amarillo).  Un doctorando o estudiante, investigador, alguien que pasa tiempo adquiriendo sólidas bases de conocimiento en algún campo de las ciencias (amarillo). Si además desarrolla habilidades en las áreas de matemática y estadística (herramientas del investigador científico tradicional) se ubicaría en la intersección de color anaranjado en el diagrama de Conway. Existe también una ‘danger zone’ (**) pero por suerte está escasamente habitada!

 

(*) MCO -Mínimos cuadrados ordinarios: Es un método estadístico cuyo objetivo es mejorar el modelo de los datos que se están explorando para poder realizar predicciones basadas en datos históricos https://es.wikipedia.org/wiki/Mínimos_cuadrados_ordinarios

(**) Danger Zone: Aquí coloca D.Conway a quienes tienen a su alcance crear lo que puede aparecer como un análisis legítimo utilizando algún programa de estadística, sin entender realmente cómo llegaron a ese resultado o qué han creado.

 

 

The Data Science Venn Diagram is Creative Commons licensed as Attribution-NonCommercial88x31