El Manejo de los Grandes Datos. El Data Scientist. Parte I.

Por Adela P. Depetris

En Ciencia de Datos, se trata de descubrir cosas y construir conocimiento, lo que requiere preguntas motivantes sobre el mundo e hipótesis. Y que éstas sean convertidas en datos coleccionados, estructurados y testeables con métodos estadísticos. Por ello el ‘Data Scientist’ requiere distintas habilidades. Hace ya unos años Drew Conway concibió un diagrama de Venn para visualizar su definición de Científico de Datos o Data Scientist y las tres habilidades esenciales:

  •  Habilidades para ‘hacking de datos’ (área azul en el diagrama). Para ser un exitoso “hacker de datos” se requeriría poder manipular archivos de texto en la línea de comando, comprender operaciones vectorizadas, pensar algorítmicamente. Simplificando: destrezas que nos permiten obtener datasets “limpios”, estructurados, a partir de una masa ingente y a simple vista confusa de datos (Big Data).
  • Conocimiento de matemáticas y estadística (área en colorado).  Una vez conseguidos y limpios los datos, el siguiente paso es extraer contenido de ellos. Para hacer esto es necesario aplicar métodos estadísticos y matemáticos apropiados. También requiere saber qué es una regresión de MCO(*) y cómo interpretarla. El resultado será un modelo. Se exploran grandes cantidades de datos buscando mejorar un algoritmo que exprese su comportamiento en una especie de fórmula, que se usará para inferencias o en forma predictiva con otros datos.

Para Conway el uso de estas dos primeras habilidades converge en lo que se conoce como “machine learning” que siendo un uso poderoso de los datos, no es todavía Data Science o Ciencia de Datos. El agregó una habilidad adicional:

  • Expertise sustancial (área en amarillo).  Un doctorando o estudiante, investigador, alguien que pasa tiempo adquiriendo sólidas bases de conocimiento en algún campo de las ciencias (amarillo). Si además desarrolla habilidades en las áreas de matemática y estadística (herramientas del investigador científico tradicional) se ubicaría en la intersección de color anaranjado en el diagrama de Conway. Existe también una ‘danger zone’ (**) pero por suerte está escasamente habitada!

 

(*) MCO -Mínimos cuadrados ordinarios: Es un método estadístico cuyo objetivo es mejorar el modelo de los datos que se están explorando para poder realizar predicciones basadas en datos históricos https://es.wikipedia.org/wiki/Mínimos_cuadrados_ordinarios

(**) Danger Zone: Aquí coloca D.Conway a quienes tienen a su alcance crear lo que puede aparecer como un análisis legítimo utilizando algún programa de estadística, sin entender realmente cómo llegaron a ese resultado o qué han creado.

 

 

The Data Science Venn Diagram is Creative Commons licensed as Attribution-NonCommercial88x31

Una trilogía pujante: gobierno abierto, periodismo de datos e innovación

Por Florencia Baudino

Gobierno abierto, open data o datos abiertos, junto con periodismo de datos está colmando los espacios públicos y privados, instituciones, organizaciones sociales y medios de comunicación. Se trata de un fenómeno que crece y cobra relevancia en los últimos años. Ello es así porque el Siglo XXI trae consigo la conformación de una sociedad inmersa en el mundo de la información. Sin embargo, los datos o la información necesitan su contexto. Se requiere análisis, sistematización, interpretación y visualización. Es allí donde el periodismo de precisión da el salto hacia lo que hoy se presenta como “periodismo de datos”. Las iniciativas de transparencia, acceso a la información y gobierno abierto colaboran de manera sustancial en los esfuerzos por presentar a la comunidad no solo primicias sino también información periodística de calidad, basada en datos. Las Plataformas de Gobierno Abierto implementadas por las distintas esferas de la administración pública, que incluyen además el acceso a conjuntos de datos organizados (datasets), son utilizados por la sociedad civil y los medios de comunicación con el fin de encontrar asociaciones que permitan extraer conclusiones, y así obtener y ofrecer a la ciudadanía una mejor comprensión de la realidad. En el país, la situación legal e institucional en orden a acceso a la información pública y gobierno abierto es dispar. Hay aún mucho camino por recorrer, implicaría un aporte fundamental para el periodismo de datos y el ecosistema de innovación un avance progresivo y sistemático. Sin embargo, todavía se discute la Ley Nacional de Acceso a la Información (ver aparte) que es apenas el primer paso. Es cierto que, algunas provincias y municipios, cuentan con legislación que consagra el derecho de acceso a la información pública desde hace ya varios años, y van por más con la implementación de Plataformas de Gobierno Abierto y Portales de Open Data. Entre otras, recientemente la intendencia de la Ciudad de Córdoba, y de Villa María, en la provincia de Córdoba o la de Pilar, en provincia de Buenos Aires, han implementado sus plataformas de Gobierno Abierto donde se incluye la visualización de distintos catálogos de información y algunos de datos abiertos. Muchas veces se mezclan catálogos de información con catálogos de datos; y no son lo mismo. Información son datos ya procesados y analizados por otros. Cuando hablamos de Portales de Datos Abiertos nos referimos principalmente a “datos duros” susceptibles de ser analizados por otros, por ejemplo periodistas que puedan hacer su propia interpretación y reconstrucción de la realidad con los datos provistos. A nivel nacional, también está avanzando bajo la coordinación del Ministerio de Modernización con su Plan de Apertura de Datos (www.datos.gob.ar). El problema para encontrar información aún depende de cuán hábil es el usuario al momento de identificar los datos. Es decir, si bien existen avances a nivel gubernamental, la paciencia y la perseverancia son condición esencial de la búsqueda. 10 o más clics se necesitan la mayoría de las veces para llegar finalmente al dato, y ello sucede si se tiene claridad respecto a aquello qué se está rastreando, pero además se debe contemplar la posibilidad de llegar a información desactualizada o incompleta, y eventualmente en formatos que impidan su procesamiento. Vale decir, no solo basta con exhibir datos públicos, también hay que producirlos en formatos reutilizables que contribuyan a crear valor. Estar a la vanguardia del ecosistema de datos abiertos representa un desafío. Aún prevalece la confusión en torno a la usabilidad de estas plataformas, se requiere cierto conocimiento y mayor experiencia del ciudadano y de los medios para el tratamiento de los datos. Es un camino en construcción, en el cual los distintos sectores y actores sociales deberán actuar en conjunto y con responsabilidad social en el proceso de abrir información y acceder a las herramientas que permitan su procesamiento y utilización, no sólo para saber sino también para crear valor público y alimentar el sistema de innovación.

Glosario: ¿Qué es el periodismo de datos?

Tal vez se trata de las nuevas posibilidades que se abren cuando combinas el tradicional ‘olfato para las noticias’ y la capacidad para contar una historia apasionante, con la escala y rango de información digital disponible hoy. O de otras nuevas posibilidades, como usar programación para automatizar la recolección y combinación de información del gobierno local u otras fuentes cívicas, o usar software para encontrar conexiones entre cientos de miles de documentos, o ayudar a contar una historia demasiado compleja a través de una infografía cautivante. Los datos son la fuente del periodismo de datos o pueden ser la herramienta con la que se cuente la historia, o ambos. Como cualquier fuente, debe ser tratada con escepticismo; y como cualquier herramienta, deberíamos ser conscientes de cómo puede dar forma y delimitar las historias que son creadas con ella. — reseña del artículo de Paul Bradshaw, Data Journalism Handbook.

Los datos públicos más allá de la transparencia

por María Gabriela Larrauri

Según Manuel Castells “… una revolución tecnológica, centrada en torno a las tecnologías de la información, está modificando la base material de la sociedad a un ritmo acelerado.  Las economías de todo el mundo se han hecho interdependientes a escala global, introduciendo una nueva forma de relación entre economía, Estado y sociedad en un sistema de geometría variable… las redes informáticas interactivas crecen de modo exponencial, creando nuevas formas y canales de comunicación, dando forma a la vida a la vez que ésta les da forma a ellas… Es la era de la información.” 

El eje central de la generación de riqueza, o de valor agregado, está hoy en la información –flujos de información- y el conocimiento, de allí que se requiere poner a disposición de todos, este bien básico. Pero para que la información sea tal, es preciso que cumpla con determinados requisitos: integridad, relevancia, oportunidad.

Adicionalmente para generar riqueza, se requiere innovar. Incorporar nuevos productos, procesos y métodos. Para ello se impone realizar una serie de acciones complementarias: cambios organizativos, capacitación del sector público y privado, diseño, investigación, en un proceso multidisciplinario e interactivo que implica la colaboración de una red de actores sociales y organizaciones públicas y privadas.

No obstante, el capital humano o talento humano sigue siendo la esencia de la innovación. Ciudadanos e instituciones habilitadas para innovar dependen de una educación apropiada y del desarrollo de aptitudes que complementan la educación formal. Los planes de estudio y las pedagogías necesitan adaptarse a los nuevos desafíos y al nuevo entorno de la sociedad-red. En efecto, la capacidad o falta de capacidad de las sociedades para dominar la tecnología, y en particular las que son estratégicamente decisivas en cada período histórico, define en buena medida su destino (Castells, 2011).

Las casas de estudio y educación superior, como los centros de instrucción práctica son nodos fundamentales del sistema de innovación. Estas instituciones actúan como puentes indispensables entre los distintos integrantes de un sistema de innovación abierto: empresas, gobiernos, organizaciones, emprendedores, consumidores, ciudadanos en general (OCDE, 2010). La ciencia sigue estando en el centro de la innovación y es imprescindible mejorar el vínculo y aumentar la colaboración entre las instituciones educativas y los demás actores sociales.

Sin duda, la conjunción de la infraestructura que proporcionan las TICs (Tecnologías de la Información y la Comunicación), la información que se genera y financia con fondos públicos, y un sistema de innovación abierto, conforman una poderosa herramienta para crear valor público.

Pero además, esta conjunción de elementos han habilitado el avance de una concepción del gobierno que admite nuevas formas de intervención y nuevos roles para ciudadanos y gobernantes que, integradas adecuadamente, conforman una solución para abrir información en poder de los Estados y por lo tanto, fortalecer el sistema democrático.

En una economía que se basa cada vez más en el conocimiento y en la innovación, es imprescindible facilitar el acceso al conocimiento y el uso de la información y datos públicos, no sólo por el imperativo de un Estado transparente. A pesar de la gran contribución que ofrece la apertura y el análisis de datos e información en el diseño de políticas públicas, en los proceso de investigación y de toma de decisiones, en las distintas instancias del desarrollo y dinamización de la economía, como en los procesos de rendición de cuentas de la gestión pública, su manejo presenta serias dificultades.

Existen retos y oportunidades que afrontar en una estrategia de acceso a la información y datos abiertos. En general se posee escasa técnica, herramientas y conocimientos para manejar de manera adecuada la inmensa cantidad de datos o información disponible. Un uso inadecuado o un análisis incompleto o erróneo de los datos pueden llevar a conclusiones equivocadas, en la información que se produce y comunica.  Otro desafío importante es poder distinguir entre información relevante y aquella que no lo es, sobre todo en los procesos actuales en los que los gobiernos abren información de manera “simbólica”, y en tanto la definición de relevante es ciertamente subjetiva.

Las iniciativas gubernamentales de datos abiertos suponen (o deberían suponer) la existencia de un convenio tácito entre la administración pública que abre sus datos y quienes usan esa información (empresas, emprendedores, academia, ciudadanía, organizaciones sociales) para transformar la información en bruto que se publica, en nuevos servicios y aplicaciones de valor agregado. Se requiere para esto un diálogo permanente entre productores y “consumidores” de información. Las administraciones deben saber escuchar y abrir datos con calidad y de calidad. Quienes usan la información pública deben activarse para ver nuevos modelos de negocios en torno a la reutilización de información pública y desarrollar y dinamizar el crecimiento económico (CEPAL, 2012) de manera sustentable. En todos los casos debe ser utilizada con responsabilidad y ética. Y la ciudadanía toda deberá capacitarse y entrenarse en el manejo de datos públicos para ejercer su rol de control frente a las diferentes esferas del Estado, pero también para favorecer un sistema de innovación abierto. Cuanta mejor información menor posibilidades de equivocarnos tendremos.

Proyecto de Ley sobre acceso a la información pública

Proyecto de Ley sobre ‪#‎AccesoalaInformaciónPública‬

Más de 20 especialistas y representantes de organizaciones civiles expusieron el pasado martes 19 de abrilsobre el proyecto de ley sobre accesoa  la información pública ante la Comisión de Asuntos Constitucionales de la Cámara de Diputados. Entre ellos, Agustin Allende, de AGA Argentina, Asociación Civil para la Construcción de un Gobierno Abierto.

Se puede ver más información en la siguiente nota: http://www.parlamentario.com/noticia-90995.html

El documento completo con la presentación de AGA Argentina (Observaciones críticas al Proyecto de ley sobre Acceso a la Información Pública) puede descargarse aquí: http://agaargentina.org/pdf/PresentacionHCDLeydeAcceso.pdf

Quisiéramos conocer tu opinión, lee cada una de las críticas y dájanos tu comentario.

 

 

 

Open Data Day 2016 – Fomentar la apertura de datos

Open Data Day 2016

Con el objetivo de fomentar la apertura y uso de datos, se celebra el Open Data Day el próximo 5 de marzo, en una dinámica de múltiples eventos simultáneos en decenas de ciudades, en todo el mundo.

Open Data Day es una iniciativa lanzada en 2010 por la Fundación Open Knowledge. Consiste en un conjunto de actividades locales, o “grassroots” que germinan por todo el mundo para la promoción de una cultura de datos científicos, meteorológicos, culturales, financieros, ambientales, estadísticos y de transporte, entre otros.

Se planean reuniones, hackatones o talleres en los que se pueden desarrollar apps, liberar más datos, armar visualizaciones y publicar análisis. Es abierto. Cualquiera que esté interesado puede crear un evento a través del sitio oficial y cualquier persona, sea desarrollador, diseñador, investigador o incluso un habitante local, puede asistir.

Conoce las iniciativas que se esperan este año en el mundo hispanoparlante.

Buenos Aires, Argentina

Un foro y barcamp donde la Sociedad Civil, integrantes del gobierno, legisladoras, académicos y hackers cívicos, nos daremos al encuentro en un día de ideación para trabajar junto en Gobierno Abierto durante el 2016.

La Paz, Bolivia

La organización sin fines de lucro ACM-SIM organiza una serie de presentaciones keynotes y una jornada de visualización de datos

Lima, Perú

Open Data Perú tiene programadas charlas, talleres y un hackatón.

Quito, Ecuador

School of Data y MediaLab UIO contemplan una reunión de alrededor de 50 participantes sobre Datos Abiertos. 

San Salvador, El Salvador

Open Knowledge El Salvador, Consorcio por la Transparencia y Asociacion Civil Red Ciudadana están convocando a talleres y actividades de promoción de datos abiertos.

Guatemala, Guatemala

La capital de Guatemala prevee una conferencia y talleres organizados por la asociación Red Ciudadana.

Ciudad de México, México

En Ciudad de México, Social TIC, en colaboración con Google Devs y Centraal invitan a una sesión de expediciones de datos, capacitaciones y presentación de proyectos.

Colima, México

Introducción a datos abiertos, plataformas para publicación de datos abiertos, exploración de datos, herramientas, hacktivismo e iniciativas impulsadas por la cultura hacker son los temas de las conferencias que ocurrirán en Colima.

Son organizadas por las asociaciones Tecnologías Libres para Innovación y Desarrollo AC y AppData.

Torreón, México

El ayuntamiento de Torreón convoca a conferencias y actividades de promoción de la cultura de Datos Abiertos.

Ciudad Obregón, México

Una serie de conferencias y un hackatón son organizados por Universidad La Salle, el ayuntamiento de Cajeme y Mawe Tecnologías.

Pamplona, España

Finodex Accelerator invita a capacitaciones, talleres y conferencias

Granada, España

Enfocados en generar historias a partir de historias locales, Open XXI y la Universidad de Granada organizan un hackaton en Granada.

http://hackaton.okfn.es

Madrid, España

Journocoders Madrid, Open Knowledge Spain, Medialab-Prado convocan a un hackatón.

Fuentes de información:

http://opendataday.org/

http://ar.okfn.org/