Por Adela P. Depetris
En Ciencia de Datos, se trata de descubrir cosas y construir conocimiento, lo que requiere preguntas motivantes sobre el mundo e hipótesis. Y que éstas sean convertidas en datos coleccionados, estructurados y testeables con métodos estadísticos. Por ello el ‘Data Scientist’ requiere distintas habilidades. Hace ya unos años Drew Conway concibió un diagrama de Venn para visualizar su definición de Científico de Datos o Data Scientist y las tres habilidades esenciales:
- Habilidades para ‘hacking de datos’ (área azul en el diagrama). Para ser un exitoso “hacker de datos” se requeriría poder manipular archivos de texto en la línea de comando, comprender operaciones vectorizadas, pensar algorítmicamente. Simplificando: destrezas que nos permiten obtener datasets “limpios”, estructurados, a partir de una masa ingente y a simple vista confusa de datos (Big Data).
- Conocimiento de matemáticas y estadística (área en colorado). Una vez conseguidos y limpios los datos, el siguiente paso es extraer contenido de ellos. Para hacer esto es necesario aplicar métodos estadísticos y matemáticos apropiados. También requiere saber qué es una regresión de MCO(*) y cómo interpretarla. El resultado será un modelo. Se exploran grandes cantidades de datos buscando mejorar un algoritmo que exprese su comportamiento en una especie de fórmula, que se usará para inferencias o en forma predictiva con otros datos.
Para Conway el uso de estas dos primeras habilidades converge en lo que se conoce como “machine learning” que siendo un uso poderoso de los datos, no es todavía Data Science o Ciencia de Datos. El agregó una habilidad adicional:
- Expertise sustancial (área en amarillo). Un doctorando o estudiante, investigador, alguien que pasa tiempo adquiriendo sólidas bases de conocimiento en algún campo de las ciencias (amarillo). Si además desarrolla habilidades en las áreas de matemática y estadística (herramientas del investigador científico tradicional) se ubicaría en la intersección de color anaranjado en el diagrama de Conway. Existe también una ‘danger zone’ (**) pero por suerte está escasamente habitada!
(*) MCO -Mínimos cuadrados ordinarios: Es un método estadístico cuyo objetivo es mejorar el modelo de los datos que se están explorando para poder realizar predicciones basadas en datos históricos https://es.wikipedia.org/wiki/Mínimos_cuadrados_ordinarios
(**) Danger Zone: Aquí coloca D.Conway a quienes tienen a su alcance crear lo que puede aparecer como un análisis legítimo utilizando algún programa de estadística, sin entender realmente cómo llegaron a ese resultado o qué han creado.
The Data Science Venn Diagram is Creative Commons licensed as Attribution-NonCommercial.