El Manejo de los Grandes Datos. Datos Abiertos, Big Data y el mito del Data Scientist. Parte II.

Por Adela P. Depetris

Un número en progreso continuo de compañías y gobiernos europeos cuentan ya con un CDO (siguiendo el estilo del CEO -Chief Executive Officer-, el CDO es un Chief “Data” Officer) lo que no hace sino enfatizar la necesidad y presión existentes para crear valor con la creciente cantidad de datos. Y no sólo en Europa: también el Presidente Obama de Estados Unidos cuenta con un CDO.

Hasta hace poco, en el sector público, sólo trabajaban con datos los empleados de las áreas de estadísticas y censos. Hoy no alcanza ese conocimiento para trabajar con Datos Abiertos o con Big Data. Este diagrama muestra la intersección de los grandes datos y los datos abiertos.

Se necesitan tanto habilidades “duras” como “blandas” (e-skills). Las habilidades “duras” son las técnicas, estadísticas y analíticas, junto con el dominio en un área específica de conocimiento para entender y derivar información de los datos. Primero se debe analizar el problema y pensar cuál es el mejor modo de resolverlo usando datos. El análisis de datos es hecho por estadísticos, mientras que la programación de algoritmos y el Machine Learning son habilidades técnicas (conocimientos de programación en un rango que puede ir desde lo básico hasta lo profundo de programación, así como de herramientas de nombres tales como Hadoop, SPSS o R). A las habilidades “duras” de hoy es imprescindible agregar las “blandas”, tales como: habilidad para la resolución de problemas, colaboración, curiosidad, creatividad y la capacidad de comunicar los resultados a los interesados. Como data scientist, investigador o entusiasta con ansias de desarrollar nuevos productos o nuevos servicios, la idea es trabajar con datos y obtener valor de ellos. Y es necesario ser capaz de construir un puente entre la informática, los negocios o la política ya que la capacidad de comunicar es la clave para unir los dos mundos ya sea se trabaje con empresas o gobiernos.

El punto no es hallar un científico de datos que puede trabajar todo el proceso por su cuenta. Por el contrario, crear un equipo de trabajo es el mejor camino. No todos necesitan ser capaces de aprender a programar para trabajar con datos abiertos, pero sí es recomendable cierto conocimiento de programación. Un equipo multidisciplinario donde se complementen las habilidades es la clave. Cada miembro puede tener un conocimiento básico de todos los aspectos necesarios, pero destacarse con excelencia en una sola área. Se trata de trabajar en un equipo con un liderazgo efectivo. Un buen líder facilita el cambio, reconoce el rendimiento de los miembros del equipo, estimula la colaboración entre ellos, se compromete con su desarrollo, y es capaz de gestionar decisiones y proveer dirección.

Los gobiernos serán los grandes re-usadores de datos abiertos. Sin embargo, necesitan asegurarse que los datos abiertos sean incorporados en la vida de todos los días de los ciudadanos y que no sean olvidados después de un par de años cuando el pico de la moda pase. El mejor camino es mostrar casos prácticos de creación de valor a través del re-uso de datos abiertos. Los gobiernos deberían liderar con el ejemplo y proactivamente compartir el re-uso hecho de los datos que ellos manejan, dando fe de la utilidad de los datos y estimulando la liberación y actualización de datasets.

 

(*) Diagrama y datos extraídos del informe analítico “E-skills y Datos Abiertos” del Portal europeo de datos http://www.europeandataportal.eu/

(**) Brecha de habilidades http://edsa-project.eu/addressing-the-big-data-and-data-science-skills-gap-at-ict2015/

El Manejo de los Grandes Datos. El Data Scientist. Parte I.

Por Adela P. Depetris

En Ciencia de Datos, se trata de descubrir cosas y construir conocimiento, lo que requiere preguntas motivantes sobre el mundo e hipótesis. Y que éstas sean convertidas en datos coleccionados, estructurados y testeables con métodos estadísticos. Por ello el ‘Data Scientist’ requiere distintas habilidades. Hace ya unos años Drew Conway concibió un diagrama de Venn para visualizar su definición de Científico de Datos o Data Scientist y las tres habilidades esenciales:

  •  Habilidades para ‘hacking de datos’ (área azul en el diagrama). Para ser un exitoso “hacker de datos” se requeriría poder manipular archivos de texto en la línea de comando, comprender operaciones vectorizadas, pensar algorítmicamente. Simplificando: destrezas que nos permiten obtener datasets “limpios”, estructurados, a partir de una masa ingente y a simple vista confusa de datos (Big Data).
  • Conocimiento de matemáticas y estadística (área en colorado).  Una vez conseguidos y limpios los datos, el siguiente paso es extraer contenido de ellos. Para hacer esto es necesario aplicar métodos estadísticos y matemáticos apropiados. También requiere saber qué es una regresión de MCO(*) y cómo interpretarla. El resultado será un modelo. Se exploran grandes cantidades de datos buscando mejorar un algoritmo que exprese su comportamiento en una especie de fórmula, que se usará para inferencias o en forma predictiva con otros datos.

Para Conway el uso de estas dos primeras habilidades converge en lo que se conoce como “machine learning” que siendo un uso poderoso de los datos, no es todavía Data Science o Ciencia de Datos. El agregó una habilidad adicional:

  • Expertise sustancial (área en amarillo).  Un doctorando o estudiante, investigador, alguien que pasa tiempo adquiriendo sólidas bases de conocimiento en algún campo de las ciencias (amarillo). Si además desarrolla habilidades en las áreas de matemática y estadística (herramientas del investigador científico tradicional) se ubicaría en la intersección de color anaranjado en el diagrama de Conway. Existe también una ‘danger zone’ (**) pero por suerte está escasamente habitada!

 

(*) MCO -Mínimos cuadrados ordinarios: Es un método estadístico cuyo objetivo es mejorar el modelo de los datos que se están explorando para poder realizar predicciones basadas en datos históricos https://es.wikipedia.org/wiki/Mínimos_cuadrados_ordinarios

(**) Danger Zone: Aquí coloca D.Conway a quienes tienen a su alcance crear lo que puede aparecer como un análisis legítimo utilizando algún programa de estadística, sin entender realmente cómo llegaron a ese resultado o qué han creado.

 

 

The Data Science Venn Diagram is Creative Commons licensed as Attribution-NonCommercial88x31

Una trilogía pujante: gobierno abierto, periodismo de datos e innovación

Por Florencia Baudino

Gobierno abierto, open data o datos abiertos, junto con periodismo de datos está colmando los espacios públicos y privados, instituciones, organizaciones sociales y medios de comunicación. Se trata de un fenómeno que crece y cobra relevancia en los últimos años. Ello es así porque el Siglo XXI trae consigo la conformación de una sociedad inmersa en el mundo de la información. Sin embargo, los datos o la información necesitan su contexto. Se requiere análisis, sistematización, interpretación y visualización. Es allí donde el periodismo de precisión da el salto hacia lo que hoy se presenta como “periodismo de datos”. Las iniciativas de transparencia, acceso a la información y gobierno abierto colaboran de manera sustancial en los esfuerzos por presentar a la comunidad no solo primicias sino también información periodística de calidad, basada en datos. Las Plataformas de Gobierno Abierto implementadas por las distintas esferas de la administración pública, que incluyen además el acceso a conjuntos de datos organizados (datasets), son utilizados por la sociedad civil y los medios de comunicación con el fin de encontrar asociaciones que permitan extraer conclusiones, y así obtener y ofrecer a la ciudadanía una mejor comprensión de la realidad. En el país, la situación legal e institucional en orden a acceso a la información pública y gobierno abierto es dispar. Hay aún mucho camino por recorrer, implicaría un aporte fundamental para el periodismo de datos y el ecosistema de innovación un avance progresivo y sistemático. Sin embargo, todavía se discute la Ley Nacional de Acceso a la Información (ver aparte) que es apenas el primer paso. Es cierto que, algunas provincias y municipios, cuentan con legislación que consagra el derecho de acceso a la información pública desde hace ya varios años, y van por más con la implementación de Plataformas de Gobierno Abierto y Portales de Open Data. Entre otras, recientemente la intendencia de la Ciudad de Córdoba, y de Villa María, en la provincia de Córdoba o la de Pilar, en provincia de Buenos Aires, han implementado sus plataformas de Gobierno Abierto donde se incluye la visualización de distintos catálogos de información y algunos de datos abiertos. Muchas veces se mezclan catálogos de información con catálogos de datos; y no son lo mismo. Información son datos ya procesados y analizados por otros. Cuando hablamos de Portales de Datos Abiertos nos referimos principalmente a “datos duros” susceptibles de ser analizados por otros, por ejemplo periodistas que puedan hacer su propia interpretación y reconstrucción de la realidad con los datos provistos. A nivel nacional, también está avanzando bajo la coordinación del Ministerio de Modernización con su Plan de Apertura de Datos (www.datos.gob.ar). El problema para encontrar información aún depende de cuán hábil es el usuario al momento de identificar los datos. Es decir, si bien existen avances a nivel gubernamental, la paciencia y la perseverancia son condición esencial de la búsqueda. 10 o más clics se necesitan la mayoría de las veces para llegar finalmente al dato, y ello sucede si se tiene claridad respecto a aquello qué se está rastreando, pero además se debe contemplar la posibilidad de llegar a información desactualizada o incompleta, y eventualmente en formatos que impidan su procesamiento. Vale decir, no solo basta con exhibir datos públicos, también hay que producirlos en formatos reutilizables que contribuyan a crear valor. Estar a la vanguardia del ecosistema de datos abiertos representa un desafío. Aún prevalece la confusión en torno a la usabilidad de estas plataformas, se requiere cierto conocimiento y mayor experiencia del ciudadano y de los medios para el tratamiento de los datos. Es un camino en construcción, en el cual los distintos sectores y actores sociales deberán actuar en conjunto y con responsabilidad social en el proceso de abrir información y acceder a las herramientas que permitan su procesamiento y utilización, no sólo para saber sino también para crear valor público y alimentar el sistema de innovación.

Glosario: ¿Qué es el periodismo de datos?

Tal vez se trata de las nuevas posibilidades que se abren cuando combinas el tradicional ‘olfato para las noticias’ y la capacidad para contar una historia apasionante, con la escala y rango de información digital disponible hoy. O de otras nuevas posibilidades, como usar programación para automatizar la recolección y combinación de información del gobierno local u otras fuentes cívicas, o usar software para encontrar conexiones entre cientos de miles de documentos, o ayudar a contar una historia demasiado compleja a través de una infografía cautivante. Los datos son la fuente del periodismo de datos o pueden ser la herramienta con la que se cuente la historia, o ambos. Como cualquier fuente, debe ser tratada con escepticismo; y como cualquier herramienta, deberíamos ser conscientes de cómo puede dar forma y delimitar las historias que son creadas con ella. — reseña del artículo de Paul Bradshaw, Data Journalism Handbook.

Los datos públicos más allá de la transparencia

por María Gabriela Larrauri

Según Manuel Castells “… una revolución tecnológica, centrada en torno a las tecnologías de la información, está modificando la base material de la sociedad a un ritmo acelerado.  Las economías de todo el mundo se han hecho interdependientes a escala global, introduciendo una nueva forma de relación entre economía, Estado y sociedad en un sistema de geometría variable… las redes informáticas interactivas crecen de modo exponencial, creando nuevas formas y canales de comunicación, dando forma a la vida a la vez que ésta les da forma a ellas… Es la era de la información.” 

El eje central de la generación de riqueza, o de valor agregado, está hoy en la información –flujos de información- y el conocimiento, de allí que se requiere poner a disposición de todos, este bien básico. Pero para que la información sea tal, es preciso que cumpla con determinados requisitos: integridad, relevancia, oportunidad.

Adicionalmente para generar riqueza, se requiere innovar. Incorporar nuevos productos, procesos y métodos. Para ello se impone realizar una serie de acciones complementarias: cambios organizativos, capacitación del sector público y privado, diseño, investigación, en un proceso multidisciplinario e interactivo que implica la colaboración de una red de actores sociales y organizaciones públicas y privadas.

No obstante, el capital humano o talento humano sigue siendo la esencia de la innovación. Ciudadanos e instituciones habilitadas para innovar dependen de una educación apropiada y del desarrollo de aptitudes que complementan la educación formal. Los planes de estudio y las pedagogías necesitan adaptarse a los nuevos desafíos y al nuevo entorno de la sociedad-red. En efecto, la capacidad o falta de capacidad de las sociedades para dominar la tecnología, y en particular las que son estratégicamente decisivas en cada período histórico, define en buena medida su destino (Castells, 2011).

Las casas de estudio y educación superior, como los centros de instrucción práctica son nodos fundamentales del sistema de innovación. Estas instituciones actúan como puentes indispensables entre los distintos integrantes de un sistema de innovación abierto: empresas, gobiernos, organizaciones, emprendedores, consumidores, ciudadanos en general (OCDE, 2010). La ciencia sigue estando en el centro de la innovación y es imprescindible mejorar el vínculo y aumentar la colaboración entre las instituciones educativas y los demás actores sociales.

Sin duda, la conjunción de la infraestructura que proporcionan las TICs (Tecnologías de la Información y la Comunicación), la información que se genera y financia con fondos públicos, y un sistema de innovación abierto, conforman una poderosa herramienta para crear valor público.

Pero además, esta conjunción de elementos han habilitado el avance de una concepción del gobierno que admite nuevas formas de intervención y nuevos roles para ciudadanos y gobernantes que, integradas adecuadamente, conforman una solución para abrir información en poder de los Estados y por lo tanto, fortalecer el sistema democrático.

En una economía que se basa cada vez más en el conocimiento y en la innovación, es imprescindible facilitar el acceso al conocimiento y el uso de la información y datos públicos, no sólo por el imperativo de un Estado transparente. A pesar de la gran contribución que ofrece la apertura y el análisis de datos e información en el diseño de políticas públicas, en los proceso de investigación y de toma de decisiones, en las distintas instancias del desarrollo y dinamización de la economía, como en los procesos de rendición de cuentas de la gestión pública, su manejo presenta serias dificultades.

Existen retos y oportunidades que afrontar en una estrategia de acceso a la información y datos abiertos. En general se posee escasa técnica, herramientas y conocimientos para manejar de manera adecuada la inmensa cantidad de datos o información disponible. Un uso inadecuado o un análisis incompleto o erróneo de los datos pueden llevar a conclusiones equivocadas, en la información que se produce y comunica.  Otro desafío importante es poder distinguir entre información relevante y aquella que no lo es, sobre todo en los procesos actuales en los que los gobiernos abren información de manera “simbólica”, y en tanto la definición de relevante es ciertamente subjetiva.

Las iniciativas gubernamentales de datos abiertos suponen (o deberían suponer) la existencia de un convenio tácito entre la administración pública que abre sus datos y quienes usan esa información (empresas, emprendedores, academia, ciudadanía, organizaciones sociales) para transformar la información en bruto que se publica, en nuevos servicios y aplicaciones de valor agregado. Se requiere para esto un diálogo permanente entre productores y “consumidores” de información. Las administraciones deben saber escuchar y abrir datos con calidad y de calidad. Quienes usan la información pública deben activarse para ver nuevos modelos de negocios en torno a la reutilización de información pública y desarrollar y dinamizar el crecimiento económico (CEPAL, 2012) de manera sustentable. En todos los casos debe ser utilizada con responsabilidad y ética. Y la ciudadanía toda deberá capacitarse y entrenarse en el manejo de datos públicos para ejercer su rol de control frente a las diferentes esferas del Estado, pero también para favorecer un sistema de innovación abierto. Cuanta mejor información menor posibilidades de equivocarnos tendremos.

Open Data Day 2016 – Fomentar la apertura de datos

Open Data Day 2016

Con el objetivo de fomentar la apertura y uso de datos, se celebra el Open Data Day el próximo 5 de marzo, en una dinámica de múltiples eventos simultáneos en decenas de ciudades, en todo el mundo.

Open Data Day es una iniciativa lanzada en 2010 por la Fundación Open Knowledge. Consiste en un conjunto de actividades locales, o “grassroots” que germinan por todo el mundo para la promoción de una cultura de datos científicos, meteorológicos, culturales, financieros, ambientales, estadísticos y de transporte, entre otros.

Se planean reuniones, hackatones o talleres en los que se pueden desarrollar apps, liberar más datos, armar visualizaciones y publicar análisis. Es abierto. Cualquiera que esté interesado puede crear un evento a través del sitio oficial y cualquier persona, sea desarrollador, diseñador, investigador o incluso un habitante local, puede asistir.

Conoce las iniciativas que se esperan este año en el mundo hispanoparlante.

Buenos Aires, Argentina

Un foro y barcamp donde la Sociedad Civil, integrantes del gobierno, legisladoras, académicos y hackers cívicos, nos daremos al encuentro en un día de ideación para trabajar junto en Gobierno Abierto durante el 2016.

La Paz, Bolivia

La organización sin fines de lucro ACM-SIM organiza una serie de presentaciones keynotes y una jornada de visualización de datos

Lima, Perú

Open Data Perú tiene programadas charlas, talleres y un hackatón.

Quito, Ecuador

School of Data y MediaLab UIO contemplan una reunión de alrededor de 50 participantes sobre Datos Abiertos. 

San Salvador, El Salvador

Open Knowledge El Salvador, Consorcio por la Transparencia y Asociacion Civil Red Ciudadana están convocando a talleres y actividades de promoción de datos abiertos.

Guatemala, Guatemala

La capital de Guatemala prevee una conferencia y talleres organizados por la asociación Red Ciudadana.

Ciudad de México, México

En Ciudad de México, Social TIC, en colaboración con Google Devs y Centraal invitan a una sesión de expediciones de datos, capacitaciones y presentación de proyectos.

Colima, México

Introducción a datos abiertos, plataformas para publicación de datos abiertos, exploración de datos, herramientas, hacktivismo e iniciativas impulsadas por la cultura hacker son los temas de las conferencias que ocurrirán en Colima.

Son organizadas por las asociaciones Tecnologías Libres para Innovación y Desarrollo AC y AppData.

Torreón, México

El ayuntamiento de Torreón convoca a conferencias y actividades de promoción de la cultura de Datos Abiertos.

Ciudad Obregón, México

Una serie de conferencias y un hackatón son organizados por Universidad La Salle, el ayuntamiento de Cajeme y Mawe Tecnologías.

Pamplona, España

Finodex Accelerator invita a capacitaciones, talleres y conferencias

Granada, España

Enfocados en generar historias a partir de historias locales, Open XXI y la Universidad de Granada organizan un hackaton en Granada.

http://hackaton.okfn.es

Madrid, España

Journocoders Madrid, Open Knowledge Spain, Medialab-Prado convocan a un hackatón.

Fuentes de información:

http://opendataday.org/

http://ar.okfn.org/

Dependiendo del tipo de dato del que se trate, disímil criterio de acceso se aplicará. El ejemplo del Big Data

De repente han surgido gran cantidad de acepciones que están vinculadas con los datos. ¿O acaso no resulta cada vez más usual escuchar hablar de Big Data, Data Breach, Datos Abiertos o Datos Personales?

Sin embargo se debe advertir que no todos los datos son iguales, sino que hay diversos tipos de datos. Y que por resultar tan diferentes entre sí, les resultan aplicables a cada tipo, principios que pueden verse como antagónicos, o si se quiere como complementarios.

En una rápida aproximación en la búsqueda de criterios diferenciadores entre los diversos tipos de datos, una alternativa pasa por considerar quién es el que está en posesión efectiva del dato de que se trate. Ante lo cual si el dato surge o refleja alguna actividad pública, y por lo general en posesión del Estado, estamos frente a un dato público. 

Sin embargo el hecho que se trate de un dato público, no implica la titularidad del Estado, sino todo lo contrario, la titularidad de la ciudadanía y la consecuente aptitud de ser recuperados en cualquier momento por sus dueños, los ciudadanos.

Si bien la recuperación de los datos públicos es un presupuesto ineludible para que la ciudadanía pueda ejercer derechos más intensos e idóneos en la participación de la discusión de cuestiones de interés público, existen ciertos supuestos excepcionales que aún cuando los datos estén o hayan sido generados en el ámbito gubernamental, el marco legal estatuye una restricción específica para su acceso, como es el caso de datos personales en poder del Estado. 

El ejercicio de este derecho básico de información sobre la cosa pública no debe ceñirse a garantizar el acceso a la información pública, sino que debe indefectiblemente incluir, para ser efectivo, la disposición de los datos públicos en función de los “8 principios” que son de referencia internacional: “completos, primarios, actuales, accesibles, procesables, no discriminatorios, no propietario, sin licencia”, para el desarrollo de nuevas aplicaciones, servicios, actividades económicas y para una efectiva rendición de cuentas por parte de los gobernantes ante la ciudadanía.

Esa ineludible apertura de acceso aplicable a los datos públicos de titularidad ciudadana se contrapone o complementa con el criterio restrictivo de acceso que rige, como regla general, para los datos personales de titularidad de cada individuo en particular producto de la tutela especial que brindan las leyes de protección de datos personales.

La necesidad de distinguir acerca del diferente tipo de dato deviene relevante frente al disímil criterio aplicable para el acceso a los mismos.  Por una parte los datos públicos sujetos a un criterio de apertura total y a entera voluntad del requirente y por el otro, los datos privados, cuyo levantamiento del cerrojo para su acceso depende exclusivamente de la voluntad expresa del titular del mismo.   

El respeto de ambos criterios, que aparecen como antagónicos pero que también pueden verse como complementarios, es indispensable para un verdadero empoderamiento de la ciudadanía, en cuanto a su participación activa en la discusión de las cuestiones públicas como en la protección de su ámbito de privacidad.

Un ejemplo concreto de las consecuencias que se presentan según el diferente tipo de dato que se trate, surge a las claras con el fenómeno del Big Data, entendido como el almacenamiento y análisis de un gran y complejo conjunto de datos a través de la utilización de una serie de técnicas especiales para lograr tales fines, y que es una realidad cada vez más vigente tanto en el mundo de los datos privados como públicos. 

La utilización intensiva de los datos originariamente emparentada con el sector empresarial privado empieza a ser empleada por el sector público en la adopción de mejoras en sus políticas públicas a través del procesamiento de aquella información provista por sensores o cámaras ubicados en el espacio público. Lo cual sin duda resulta sumamente auspicioso y virtuoso en el ámbito público. Sin embargo, en lo que concierne a datos privados esas ventajas de una utilización intensiva se ven opacadas frente a los novedosos riesgos a los que se puede encontrar expuesta la privacidad en el transcurso de este proceso. Al mismo tiempo,  el sector privado a través del proceso de apertura de datos públicos está cada vez más desarrollando aplicaciones en algunos casos comerciales y en otras de mejoras en la prestación de los servicios públicos.  Cada vez más los “datos” son una materia prima esencial para el desarrollo económico y la innovación social. 

Big d