Programa RAIZ – Red Abierta Integrada de Apoyo a la Gestión Local

Los tres ejes del programa (gobierno abierto, desarrollo local, e innovación en la gestión pública) en la presentación de Gabriela Larrauri, su coordinadora:

 

La denominación “PROGRAMA RAIZ” refiere a la posibilidad de profundizar el trabajo territorial, los vínculos e interacciones al interior de la administración pero también con el medio y el entorno como elementos claves del desarrollo y la innovación. Alude igualmente a la posibilidad de ver y entender a cada municipio y comuna, como cada “RAIZ”, con sus propias necesidades y desafíos desde que se trata de reconocer y fortalecer el potencial endógeno de cada localidad y región. Entendemos que solo desde una raíz fuerte y sana al interior de cada gobierno local será posible desplegar la capacidad de iniciativa y liderazgo que requiere la construcción de un proyecto colectivo.
La Universidad Nacional de Córdoba cuenta con los recursos técnicos y profesionales, las habilidades y competencias que se requieren para capacitar, asistir y formar a quienes tienen la responsabilidad de llevar adelante la gestión pública. Se trata entonces, de abrir la Universidad a la sociedad y transferir conocimiento pero también de construir conocimiento a partir de los saberes y capacidades locales.

más información

Fuente: https://www.unc.edu.ar/extensión/objetivos-y-fundamentos-8

¡¿Transparencia o Visibilidad Fiscal?¡

por María Gabriela Larrauri

Los índices están de moda. Al igual que las encuestas parecen hechos a medida y con relevamientos parciales, e igualmente parciales son sus resultados. Desde la Asociación Civil para la Construcciòn de un Gobierno Abierto nos parece importante reflexionar sobre las conclusiones del informe del Instituto Argentino de Análisis Fiscal (IARAF) que fueron recientemente publicadas en PUNTAL.

El estudio elabora un ranking de “Visibilidad Fiscal en Municipios Argentinos”, no necesariamente transparencia, y afirma que en promedio, se difunde poco menos de la mitad de la información fiscal necesaria para el control de los gobiernos locales. En ese ranking, Rio Cuarto ocupa el lugar número 11 y estaría entre las ciudades con mayor transparencia del país.
Sin ánimo de polemizar pero sí de contextualizar, para entender los resultados, es necesario saber qué se mide y la metodología empleada para la medición. La transparencia activa, el acceso a la información pública y la rendición de cuentas son ejes centrales de un gobierno abierto y por tanto es relevante, cuanto menos, hacer explícitos los criterios adoptados por el informe de IARAF, y validarlos con otros criterios y pautas que académicos, expertos y Organismos Internacionales actualmente aplican para conceptualizar transparencia y acceso a la información pública.

El informe releva la información disponible en los sitios web oficiales de 100 gobiernos locales (municipios) de Argentina. La metodología aplicada para la construcción del ranking se basa en las siguientes variables: Presupuesto 2017, 2016 y anteriores, Ejecución Presupuestaria actualizada y de períodos anteriores, Código Tributario, Ordenanza Impositiva, Datos de Deuda actualizados, Llamados a licitaciones, contrataciones y proveedores, Listado completo de personal y escala de remuneraciones, Boletín Oficial. Con estas variables se construye el Índice de Visibilidad de la Información Fiscal (“IVIF”). La reflexión final del informe indica que “se observa un importante avance en cuanto a la visibilidad de las cuentas públicas de los gobiernos locales… a nivel promedio las subas no parecen tan significativas, cuando se analizan los casos de manera individual, se puede apreciar en muchos municipios un verdadero compromiso por transparentar su gestión”.

La ciudad de Río Cuarto desde el año 2009, cuenta con la Ordenanza 345, por la cual se crea el Portal de Transparencia, con la obligación de publicar: (i) presupuesto, (ii) dependencia contratante, fecha, nombre e identificación tributaria del proveedor o contratista, objeto del gasto o de la contratación, e importe de las adquisiciones o contratos que superen los $10.000, (iii) normas a las que se sujetan los procesos de contratación y el procedimiento administrativo, (iv) información sobre las contrataciones previstas por el Municipio, (v) planta de personal permanente y no permanente, locaciones de servicios, categorías, montos de haber, funciones, etc. (vi) deuda pública. Información que debe ser actualizada en forma trimestral.
Es decir, hace casi 9 años que el Municipio tiene la obligación por Ordenanza de publicar -con mayor detalle y desagregación- la información que es requerida para la conformación del ranking IARAF.

Municipalidad de Río Cuarto: fecha del relevamiento 4 de septiembre de 2017*
Asignaturas pendientes

Transparencial_Tabla

*Elaboración AGA Argentina

Sin bien no se trata de un Portal de Datos Abierto, sino de Transparencia, la norma legal establece obligaciones que no se estarían cumpliendo. Ciertamente, los estándares actuales para determinar niveles de transparencia y acceso a la información son más elevados que en 2009. El criterio es que la información pública debe ser abierta por defecto. Uno de los aspectos centrales del nuevo paradigma de gobierno abierto es la apertura de información y datos desde los gobiernos hacia la ciudadanía para que estos puedan ser usados y reutilizados, posibilitando también distintos esquemas de rendición de cuentas.

El fundamento es que los datos e información creados o en poder de las administraciones pertenecen a la sociedad. Los gobiernos son meros administradores, sin embargo relevan, acumulan y producen enormes volúmenes de datos respecto de los ciudadanos, las empresas, y una infinidad de temas, que no se proveen. Esta masa crítica de datos e información, el potencial conocimiento derivado de su análisis mediante nuevas herramientas analíticas y de cálculo estadístico, y en particular, el cruce o relación de los datos es hoy un derecho de la ciudadanía. Para ello la información y los datos deben ser completos, oportunos, accesibles y en formatos estructurados para su procesamiento, como hojas de cálculo, archivos CSV como mínimo. Los formatos de datos no estructurados, como imágenes o archivos PDF1, permiten que los datos se vean, pero no que sean extraídos para su análisis. La información publicada en el sitio web municipal de Río Cuarto no cumple éstos estándares.

Al mismo tiempo es importante no confundir gobierno electrónico, con gobierno abierto. Herramientas tales como “ciudadano digital”, trámites en línea, o la despapelización de la administración son destacables y favorecen la eficiencia, pero no son acciones que se encuadren directamente dentro de una política de gobierno abierto. La OGP (Alianza Internacional para el Gobierno Abierto) al respecto sostiene que “… no todas las reformas de e-government favorecen la apertura, para ser considerados compromisos relacionados a los valores de gobierno abierto es necesario articular la incorporación de tecnología con aspectos claros de acceso a la información pública, participación ciudadana o rendición de cuentas…”.

La OGP en su guía de compromisos indica además, respecto a la contratación pública que, como presupuesto mínimo se debe garantizar el acceso a la información contenida en contratos y documentos relacionados con la licitación, esto incluye información de cómo se negocian los contratos, objeto del contrato, cómo se desarrollan los trabajos, y las áreas responsables del seguimiento. Los estándares actuales para “contratación abierta” suponen aumentar la publicidad (ex antes y ex post) y la participación ciudadana en los procesos de contratación pública y en toda la gama de contratos, inclusive los contratos financiados por fuentes públicas y privadas conjuntamente. La información de datos relevantes de la contratación pública no solo la publicidad de la contratación, como así también que los contratos se asignen mediante procesos competitivos, son hoy una pauta clave de transparencia.

Otra “variable” destacada para el Organismo Internacional –OGP- es la publicación de las declaraciones juradas de los funcionarios y la información sobre posibles conflicto de intereses. En este aspecto las recomendaciones indican la necesidad de establecer una reglamentación para transparentar el patrimonio, los ingresos y las actividades de los funcionarios públicos, y la necesidad de establecer reglas para identificar y gestionar los conflictos de intereses. Algunas recomendaciones sugieren la designación de una agencia responsable para recopilar las DDJJ con autoridad y competencias suficientes para realizar una verificación de los datos, solicitar información a otras entidades e indagar a partir de denuncias del público. Río Cuarto desde el año pasado publica las DDJJ en formatos PDF, pero se requeriría estandarizar los criterios ya que se observan divergencias.

Además de estos brevísimos comentarios que surgen de los documentos de OGP, podemos también tomar otra pauta para contextualizar el informe de IARAF, por ejemplo el Índice de Datos Abiertos de Ciudades Argentinas que elabora la fundación Open Knowledge International (http://ar-cities.survey.okfn.org ). Algunas de las variables con las que se construye el ranking son: transporte público, compras y contrataciones, gasto público, presupuesto, medio ambiente. La variable “compras y contrataciones” se desagrega en: licitaciones por oficina de gobierno, concursos por oficina de gobierno, nombre de la licitación, descripción, adjudicación, monto, proveedor. En el caso de “gastos públicos” se verifica si está disponible la información respecto a la oficina que realizó el gasto, el objeto del gasto y el monto. Respecto a “medio ambiente” la información disponible refiere a agua (materia fecal, arsénico, flúor, total sólidos disueltos) y aire (partículas, monóxido de carbono, materia orgánica volátil, óxido de sulfuro).

Para este Índice el primer puesto lo ocupa la Ciudad de Córdoba, seguido por Buenos Aires, Villa María y Bahía Blanca, en ese orden. En el Índice elaborado por IARAF, Bahía Blanca, ciudad lider en Gobierno Abierto y caso de estudio para Organismos como la OEA, aparece en el lugar número 15 y Villa María cerca del lugar 50. Transparencia Internacional de España publica un Índice de las Comunidades Autónomas (INCAU). El Índice se construye con un total de 80 indicadores. Recomendamos ver la página www.transparencia.org.es. La publicación de la OCDE “Government at a Glance 2017” también proporciona una serie de indicadores que merecen tenerse en cuenta (http://www.oecd.org/oecddirect/). Estos indicadores se presentan no sólo para un conjunto estándar de procesos y procedimientos de la gestión pública, sino también respecto a la gestión regulatoria, el sistema de compras y adquisiciones, y se evalúa el grado de apertura, transparencia e integridad a través de todas las funciones y procesos. Se trata de indicadores que se construyen desde una dimensione sistémica de la gobernanza pública, y esto ofrece una visión integral, evitando o disminuyendo los riesgos de conclusiones sesgadas o parciales.

El Portal de Transparencia de la Municipalidad de Río Cuarto que está integrado al sitio web municipal (http://transparencia.riocuarto.gov.ar) tiene aún asignaturas pendientes. La más importante, ninguno de los datos que publica son abiertos. Los formatos en los que se publica la información es PDF lo que impide su uso y reutilización. Los informes de gestión presentan mapas geo-referenciados que permiten una buena visualización y que dan cuenta de la disponibilidad de categorías importantes de datos que aún no se han abierto. En síntesis, queda un largo camino por recorrer. Celebramos que en ese empeño desde hace más de un mes se está trabajando en una mesa de diálogo para la elaboración de la Ordenanza de Gobierno Abierto.

Portales abiertos – Estándares mínimos propuestos

Por Adela P.Depetris

Existen aspectos legales, sociales y tecnológicos que definen la cualidad de dato abierto  pero tratándose de portales también es necesario considerar los referidos a acercar al usuario (proveniente de distintas sociedades de conocimiento) a la comprensión y posibilidades de re-utilización de los datos, mediante formación, entrenamiento en línea, y otras formas de motivación. ¿Por dónde empezar? Creemos que podrían considerarse inicialmente estos aspectos:

  • La necesidad de mejorar la experiencia del usuario: para lo cual recomendamos agregar opciones al menú tales como: “Cómo usar los datos”, “Preguntas Frecuentes” y “Formación en Datos Abiertos” que contengan toda la información necesaria para la capacitación del usuario a través de módulos audiovisuales. También se podría facilitar el acceso a los datasets usando etiquetas organizadas no sólo por categorías, sino también por formatos y licencias.
  • Facilitar la visualización de datos: en la configuración técnica del portal es nuestra recomendación eliminar impedimentos en la sección de visualización de los archivos CSV , por ejemplo configurando manejo de las opciones “rango/valor” en los campos de filtros de datos (hoy deshabilitado en varios portales basados en CKAN del proyecto Andino)  e incorporando instructivos exhaustivos en español para la creación de mapas y gráficos a partir de los datos, u otros elementos de ayuda. También traducir todos los elementos de los menúes que no estén en español.
  • Visibilizar la función del gestor de datos del portal: no debería faltar el nombre y el mail del gestor del portal, quien es el responsable de asegurar la calidad y confiabilidad de los datos, en “todo el ciclo de vida de los datos”. Por ejemplo, el gestor  considera la periodicidad con que se actualizará la información y organiza y publica los datos teniendo en cuenta ese factor .
  • Estandarizar  el uso obligatorio de los campos “Frecuencia de actualización”, “Fecha de primera publicación” y “Fecha de última actualización”. Así como el tipo de licencia de los datos y la documentación de la API, si correspondiera.
  • Respetar especificaciones y buenas prácticas para la creación de nombres de etiquetas y metadatos comprensibles, evitando en lo posible abreviaturas. O incluir en este sector las aclaraciones necesarias si el nombre de campo deviene críptico.
  • Evidenciar los beneficios (también económicos) de la apertura de datos en el portal: en el menú principal agregar “Aplicaciones” y vincular la opción a una lista de aplicaciones para móviles, desarrolladas por la comunidad y/o el gobierno que citen y reusen libremente datos abiertos del portal. Sería recomendable agregar una sección “Casos de uso” con ejemplos de re-utilización de datos abiertos por parte de emprendedores.

Es importante tener en cuenta que una vez que todos los aspectos técnicos estén definidos, el proceso de ETP (extracción, transformación y publicación) deberá ser el proceso central y recurrente para cada uno de los conjuntos de datos que sean publicados. Dentro de este proceso es que se toman y aseguran medidas de calidad para los datos. El ETP es parte del ciclo de vida de los datos abiertos.

(*) Este texto fue publicado anteriormente en el Suplemento de Junio “Argentina Abierta” de Diario Puntal.

Portales abiertos – Necesidad de estándares mínimos

Por Adela P.Depetris

¿Cuál es el interés y la necesidad de definir criterios mínimos más o menos “estables” para los portales de Gobierno Abierto y de Datos Abiertos? Entendemos que ello facilitaría la usabilidad de los datos y el cambio cultural que se propone. La política de datos abiertos impulsada desde el Gobierno Nacional se inicia con un plan de apertura de datos encomiable. Sin embargo en la práctica se advierte una fuerte disparidad de criterios dentro de los portales hoy disponibles; y no siempre se cumplimentan los requisitos que permiten calificar a los datos y al portal como abiertos.

Recordemos que “portal abierto” en su mejor versión, implica proveer la documentación necesaria, la estructuración de los datos y su presentación, de manera de asegurar también  la comprensión del contenido y su usabilidad, (además de la calidad y confiabilidad de los datos). Para que lo abierto sea útil, es necesario que los consumidores desarrollen cierto “entrenamiento”. Deben poder comprender los datos, cómo apropiarse de ellos y cómo aplicarlos a sus necesidades específicas. Y también entender cómo generar valor tangible y resultados.

Es un desafío capturar la atención e imaginación del espectro total de posibles usuarios y consumidores de datos. Y el desafío será aún mayor si los portales no respetan ciertas reglas básicas, o si sus pautas estéticas, o de organización de la información, se modifican en forma permanente.

Es así que entendemos que sería recomendable acordar pautas o estándares mínimos para el diseño de los portales, que permitan o habiliten la calificación de abierto. Existen aspectos legales, sociales y tecnológicos que definen la cualidad de dato abierto  pero tratándose de portales también es necesario considerar los referidos a acercar al usuario (proveniente de distintas sociedades de conocimiento) a la comprensión y posibilidades de re-utilización de los datos, mediante formación, entrenamiento en línea, y otras formas de motivación.

 

(*) Este texto fue publicado anteriormente en el Suplemento de Junio “Argentina Abierta” de Diario Puntal.

Compromisos Subnacionales OGP – Federalización de las prácticas

Por María Gabriela Larrauri

AGA Argentina impulsó durante 2016 (para la elaboración de los compromisos de medio término del II Plan de Acción OGP), en la mesa nacional “Acceso a la Información Pública”, la necesidad de iniciar un proceso que permita federalizar las prácticas de Gobierno Abierto. Esa iniciativa fue tomada y así quedó plasmado en el Compromiso Nro.9 del II Plan, dando cabida a una serie de hitos tales como la firma de convenios de cooperación y asistencia técnica con gobiernos locales y provinciales, capacitaciones, portal para visibilizar las iniciativas a nivel país, entre otros.
Para la elaboración del III Plan de Acción, el Gobierno Nacional se propuso dar un paso más, incluir metas sub-nacionales, centralmente de los gobiernos provinciales. El cronograma de trabajo se inició así con la realización –a fines del año pasado- de los llamados “Encuentros Federales”, los que se organizaron dividiendo al país en 6 regiones. Córdoba fue sede de la Región 5 integrada por las provincias de Entre Ríos, La Pampa y Santa Fe.

No podemos omitir decir que la propuesta de los encuentros era formalmente atractiva, sin embargo creemos que su implementación apresurada, con muy escasa difusión y sin la articulación adecuada con las OSC de las distintas provincias o regiones, derivó en un pobre resultado. Entendemos que desde el Gobierno Nacional aún no se encuentran las herramientas adecuadas para convocar en forma más amplia y federal a las OSC. Esta dificultad se advierte no solo a nivel nacional, sino también en el ámbito provincial y local. No obstante ello, es justo reconocer que estamos empezando a recorrer caminos antes impensados.

El paso siguiente en el proceso de elaboración de los compromisos consistió en el relevamiento de las propuestas de los ciudadanos, OSC y organismos de la Administración pública. Esto se hizo en forma online en el mes de febrero de 2017, y allí debían detallarse las iniciativas de posibles metas. Para Córdoba, AGA Argentina propuso “Crear el portal provincial de Gobierno Abierto”, en el entendimiento que las plataformas actualmente disponibles –portal web oficial como CIDI- no reúnen los estándares mínimos como para ser considerados un portal de gobierno abierto o de datos abiertos. Esta iniciativa nos pareció adecuada para resolver las dificultades existentes en términos de acceso a la información y datos abiertos, transparencia activa y rendición de cuentas, hasta tanto (o mientras tanto) se trabaja en una nueva ley provincial de acceso a la información pública conforme estándares internacionales.

No sólo AGA Argentina presentó propuestas, otras organizaciones y ciudadanos también formularon sus iniciativas y participaron en las mesas. La lista completa de iniciativas presentadas (tanto para nación como para las provincias) se puede consultar a través de la página donde el ministerio reúne toda la información relativa a OGP:  https://www.argentina.gob.ar/mesasogp.
Finalmente, durante el mes de abril, se llevaron a cabo en Córdoba, tres encuentros de diálogo (“mesas”) convocados por la Secretaría General de la Gobernación en las que se trabajó en la meta, sustancialmente sobre la base de la propuesta formulada por AGA Argentina.

La meta provincial co-construida consiste en la institucionalización del modelo de Gobierno Abierto mediante la creación del Portal de Gobierno Abierto de la Secretaría General de la Gobernación.

Además de AGA participaron de los encuentros: Red Ciudadana Nuestra Córdoba, FUNDEPS, Foro Ambiental Córdoba, El Ágora, Instituto Federal de Gobierno-UCC, Laboratorio de Investigación Aplicada y Desarrollo – UNC, Open Data Córdoba, Proética – ICDA – UCC, TECHO, Tierra de Paz. Demás está decir que es alentador y estamos muy esperanzados en profundizar este espacio de diálogo que se ha iniciado, y que representa un desafío para el Gobierno pero también para las OSC que deberemos demostrar que podemos estar a la altura de las circunstancias para hacer el recorrido de construir espacios plurales de debate y consenso.

(*) Este texto fue publicado anteriormente en el Suplemento de Junio “Argentina Abierta” de Diario Puntal.

Data Storytelling: simplificando un mundo complejo de entender

Por Zarina Forclaz

Millones de gigabytes de información se genera, reproduce y comparte cada día en el mundo. En cada minuto se realizan más de 700 mil búsquedas en Google y se envían 170 millones de mails, en poco tiempo Facebook sobrepasará los 2000 millones de usuarios; Twitter ya va por los 400 millones de cuentas registradas. Sin dudas hoy es muy sencillo distribuir información; pero paradójicamente es mucho más difícil que el contenido sea recibido e interpretado correctamente.

En este contexto, resulta fundamental implementar estrategias que ayuden a que la información sea más comunicable, entendible y accesible para destinatarios no especializados. La utilización del data storytelling como herramienta de comunicación pública, nos ayuda a simplificar el complejo mundo de los grandes volúmenes de datos. Con la ayuda de métodos estadísticos, estrategias de visualización y maneras interactivas de mostrar la información, esta herramienta juega un importante papel como técnica comunicativa basada en datos.

La narración de datos consiste en el empleo de visualizaciones, pero implica mucho más que la presentación de un gráfico. Combina la visualización de datos con una narración guiada. Agrupa datos y gráficos con texto, no sólo describiendo lo que se puede ver en la imagen, sino también acompañándolo con una historia que guía el proceso de análisis.

En el ámbito de las políticas públicas la incursión de esta estrategia resulta útil para incrementar el interés y comprensión pública del funcionamiento y operaciones de las agencias gubernamentales, a la vez que incentiva el mayor uso de información pública y ofrece oportunidades innovadoras para la mejora de la calidad de la gobernanza de las sociedades democráticas.

El Manejo de los Grandes Datos. Datos Abiertos, Big Data y el mito del Data Scientist. Parte II.

Por Adela P. Depetris

Un número en progreso continuo de compañías y gobiernos europeos cuentan ya con un CDO (siguiendo el estilo del CEO -Chief Executive Officer-, el CDO es un Chief “Data” Officer) lo que no hace sino enfatizar la necesidad y presión existentes para crear valor con la creciente cantidad de datos. Y no sólo en Europa: también el Presidente Obama de Estados Unidos cuenta con un CDO.

Hasta hace poco, en el sector público, sólo trabajaban con datos los empleados de las áreas de estadísticas y censos. Hoy no alcanza ese conocimiento para trabajar con Datos Abiertos o con Big Data. Este diagrama muestra la intersección de los grandes datos y los datos abiertos.

Se necesitan tanto habilidades “duras” como “blandas” (e-skills). Las habilidades “duras” son las técnicas, estadísticas y analíticas, junto con el dominio en un área específica de conocimiento para entender y derivar información de los datos. Primero se debe analizar el problema y pensar cuál es el mejor modo de resolverlo usando datos. El análisis de datos es hecho por estadísticos, mientras que la programación de algoritmos y el Machine Learning son habilidades técnicas (conocimientos de programación en un rango que puede ir desde lo básico hasta lo profundo de programación, así como de herramientas de nombres tales como Hadoop, SPSS o R). A las habilidades “duras” de hoy es imprescindible agregar las “blandas”, tales como: habilidad para la resolución de problemas, colaboración, curiosidad, creatividad y la capacidad de comunicar los resultados a los interesados. Como data scientist, investigador o entusiasta con ansias de desarrollar nuevos productos o nuevos servicios, la idea es trabajar con datos y obtener valor de ellos. Y es necesario ser capaz de construir un puente entre la informática, los negocios o la política ya que la capacidad de comunicar es la clave para unir los dos mundos ya sea se trabaje con empresas o gobiernos.

El punto no es hallar un científico de datos que puede trabajar todo el proceso por su cuenta. Por el contrario, crear un equipo de trabajo es el mejor camino. No todos necesitan ser capaces de aprender a programar para trabajar con datos abiertos, pero sí es recomendable cierto conocimiento de programación. Un equipo multidisciplinario donde se complementen las habilidades es la clave. Cada miembro puede tener un conocimiento básico de todos los aspectos necesarios, pero destacarse con excelencia en una sola área. Se trata de trabajar en un equipo con un liderazgo efectivo. Un buen líder facilita el cambio, reconoce el rendimiento de los miembros del equipo, estimula la colaboración entre ellos, se compromete con su desarrollo, y es capaz de gestionar decisiones y proveer dirección.

Los gobiernos serán los grandes re-usadores de datos abiertos. Sin embargo, necesitan asegurarse que los datos abiertos sean incorporados en la vida de todos los días de los ciudadanos y que no sean olvidados después de un par de años cuando el pico de la moda pase. El mejor camino es mostrar casos prácticos de creación de valor a través del re-uso de datos abiertos. Los gobiernos deberían liderar con el ejemplo y proactivamente compartir el re-uso hecho de los datos que ellos manejan, dando fe de la utilidad de los datos y estimulando la liberación y actualización de datasets.

 

(*) Diagrama y datos extraídos del informe analítico “E-skills y Datos Abiertos” del Portal europeo de datos http://www.europeandataportal.eu/

(**) Brecha de habilidades http://edsa-project.eu/addressing-the-big-data-and-data-science-skills-gap-at-ict2015/

El Manejo de los Grandes Datos. El Data Scientist. Parte I.

Por Adela P. Depetris

En Ciencia de Datos, se trata de descubrir cosas y construir conocimiento, lo que requiere preguntas motivantes sobre el mundo e hipótesis. Y que éstas sean convertidas en datos coleccionados, estructurados y testeables con métodos estadísticos. Por ello el ‘Data Scientist’ requiere distintas habilidades. Hace ya unos años Drew Conway concibió un diagrama de Venn para visualizar su definición de Científico de Datos o Data Scientist y las tres habilidades esenciales:

  •  Habilidades para ‘hacking de datos’ (área azul en el diagrama). Para ser un exitoso “hacker de datos” se requeriría poder manipular archivos de texto en la línea de comando, comprender operaciones vectorizadas, pensar algorítmicamente. Simplificando: destrezas que nos permiten obtener datasets “limpios”, estructurados, a partir de una masa ingente y a simple vista confusa de datos (Big Data).
  • Conocimiento de matemáticas y estadística (área en colorado).  Una vez conseguidos y limpios los datos, el siguiente paso es extraer contenido de ellos. Para hacer esto es necesario aplicar métodos estadísticos y matemáticos apropiados. También requiere saber qué es una regresión de MCO(*) y cómo interpretarla. El resultado será un modelo. Se exploran grandes cantidades de datos buscando mejorar un algoritmo que exprese su comportamiento en una especie de fórmula, que se usará para inferencias o en forma predictiva con otros datos.

Para Conway el uso de estas dos primeras habilidades converge en lo que se conoce como “machine learning” que siendo un uso poderoso de los datos, no es todavía Data Science o Ciencia de Datos. El agregó una habilidad adicional:

  • Expertise sustancial (área en amarillo).  Un doctorando o estudiante, investigador, alguien que pasa tiempo adquiriendo sólidas bases de conocimiento en algún campo de las ciencias (amarillo). Si además desarrolla habilidades en las áreas de matemática y estadística (herramientas del investigador científico tradicional) se ubicaría en la intersección de color anaranjado en el diagrama de Conway. Existe también una ‘danger zone’ (**) pero por suerte está escasamente habitada!

 

(*) MCO -Mínimos cuadrados ordinarios: Es un método estadístico cuyo objetivo es mejorar el modelo de los datos que se están explorando para poder realizar predicciones basadas en datos históricos https://es.wikipedia.org/wiki/Mínimos_cuadrados_ordinarios

(**) Danger Zone: Aquí coloca D.Conway a quienes tienen a su alcance crear lo que puede aparecer como un análisis legítimo utilizando algún programa de estadística, sin entender realmente cómo llegaron a ese resultado o qué han creado.

 

 

The Data Science Venn Diagram is Creative Commons licensed as Attribution-NonCommercial88x31

Una trilogía pujante: gobierno abierto, periodismo de datos e innovación

Por Florencia Baudino

Gobierno abierto, open data o datos abiertos, junto con periodismo de datos está colmando los espacios públicos y privados, instituciones, organizaciones sociales y medios de comunicación. Se trata de un fenómeno que crece y cobra relevancia en los últimos años. Ello es así porque el Siglo XXI trae consigo la conformación de una sociedad inmersa en el mundo de la información. Sin embargo, los datos o la información necesitan su contexto. Se requiere análisis, sistematización, interpretación y visualización. Es allí donde el periodismo de precisión da el salto hacia lo que hoy se presenta como “periodismo de datos”. Las iniciativas de transparencia, acceso a la información y gobierno abierto colaboran de manera sustancial en los esfuerzos por presentar a la comunidad no solo primicias sino también información periodística de calidad, basada en datos. Las Plataformas de Gobierno Abierto implementadas por las distintas esferas de la administración pública, que incluyen además el acceso a conjuntos de datos organizados (datasets), son utilizados por la sociedad civil y los medios de comunicación con el fin de encontrar asociaciones que permitan extraer conclusiones, y así obtener y ofrecer a la ciudadanía una mejor comprensión de la realidad. En el país, la situación legal e institucional en orden a acceso a la información pública y gobierno abierto es dispar. Hay aún mucho camino por recorrer, implicaría un aporte fundamental para el periodismo de datos y el ecosistema de innovación un avance progresivo y sistemático. Sin embargo, todavía se discute la Ley Nacional de Acceso a la Información (ver aparte) que es apenas el primer paso. Es cierto que, algunas provincias y municipios, cuentan con legislación que consagra el derecho de acceso a la información pública desde hace ya varios años, y van por más con la implementación de Plataformas de Gobierno Abierto y Portales de Open Data. Entre otras, recientemente la intendencia de la Ciudad de Córdoba, y de Villa María, en la provincia de Córdoba o la de Pilar, en provincia de Buenos Aires, han implementado sus plataformas de Gobierno Abierto donde se incluye la visualización de distintos catálogos de información y algunos de datos abiertos. Muchas veces se mezclan catálogos de información con catálogos de datos; y no son lo mismo. Información son datos ya procesados y analizados por otros. Cuando hablamos de Portales de Datos Abiertos nos referimos principalmente a “datos duros” susceptibles de ser analizados por otros, por ejemplo periodistas que puedan hacer su propia interpretación y reconstrucción de la realidad con los datos provistos. A nivel nacional, también está avanzando bajo la coordinación del Ministerio de Modernización con su Plan de Apertura de Datos (www.datos.gob.ar). El problema para encontrar información aún depende de cuán hábil es el usuario al momento de identificar los datos. Es decir, si bien existen avances a nivel gubernamental, la paciencia y la perseverancia son condición esencial de la búsqueda. 10 o más clics se necesitan la mayoría de las veces para llegar finalmente al dato, y ello sucede si se tiene claridad respecto a aquello qué se está rastreando, pero además se debe contemplar la posibilidad de llegar a información desactualizada o incompleta, y eventualmente en formatos que impidan su procesamiento. Vale decir, no solo basta con exhibir datos públicos, también hay que producirlos en formatos reutilizables que contribuyan a crear valor. Estar a la vanguardia del ecosistema de datos abiertos representa un desafío. Aún prevalece la confusión en torno a la usabilidad de estas plataformas, se requiere cierto conocimiento y mayor experiencia del ciudadano y de los medios para el tratamiento de los datos. Es un camino en construcción, en el cual los distintos sectores y actores sociales deberán actuar en conjunto y con responsabilidad social en el proceso de abrir información y acceder a las herramientas que permitan su procesamiento y utilización, no sólo para saber sino también para crear valor público y alimentar el sistema de innovación.

Glosario: ¿Qué es el periodismo de datos?

Tal vez se trata de las nuevas posibilidades que se abren cuando combinas el tradicional ‘olfato para las noticias’ y la capacidad para contar una historia apasionante, con la escala y rango de información digital disponible hoy. O de otras nuevas posibilidades, como usar programación para automatizar la recolección y combinación de información del gobierno local u otras fuentes cívicas, o usar software para encontrar conexiones entre cientos de miles de documentos, o ayudar a contar una historia demasiado compleja a través de una infografía cautivante. Los datos son la fuente del periodismo de datos o pueden ser la herramienta con la que se cuente la historia, o ambos. Como cualquier fuente, debe ser tratada con escepticismo; y como cualquier herramienta, deberíamos ser conscientes de cómo puede dar forma y delimitar las historias que son creadas con ella. — reseña del artículo de Paul Bradshaw, Data Journalism Handbook.