La expresión Open Data se ha puesto mucho de moda en los últimos tiempos. Es una disciplina que genera mucho interés, por su flexibilidad y variedad de campos de aplicación: demografía, transportes, movilidad…

Pero, ¿qué es exactamente el Open Data, y cuáles son las implicaciones de su uso?

¿Qué es el concepto de datos abiertos?

El concepto de datos abiertos (Open Data) es la idea que algunos datos tienen que estar abiertamente disponibles para el público general. Este concepto establece que los datos no han de tener derechos de propiedad intelectual. Hoy en día, las administraciones públicas son uno de los grandes productores de datos abiertos.

Para que un conjunto de datos pueda considerarse que está en abierto, tiene que cumplir ciertos requisitos:

Los datos tienen que estar disponibles a bajo o nulo coste.
Los datos se tienen que poder utilizar, reutilizar y distribuir de forma libre.
Todo el mundo tiene que poder acceder a los datos, sin restricciones.

Hay diversas razones a favor de esta causa:

  • Los datos son propiedad de la raza humana: Este argumento explica que algunos datos, como por ejemplo la secuenciación del ADN, o ciertos datos del medio ambiente no son propiedad de una sola persona, sino que pertenecen a todos los seres humanos.

 

  • Si un proyecto ha sido financiado por fondos públicos, tendría que estar en abierto: Este es también uno de los principales argumentos a favor del acceso abierto. Si un proyecto ha recibido financiación pública, no tiene sentido que después se tenga que volver a pagar para acceder a los resultados.

 

  • Si se ha creado por la administración pública, tiene que ser de acceso libre: Muy ligado con los principios de transparencia, sostiene que todos los datos generados por la administración pública y el gobierno tienen que estar a libre disposición de los ciudadanos.
  • Los hechos no tienen derechos de autor: Los meros hechos o sucesos no tienen ningún derecho de autor asociado, puesto que no hay ninguna intención creativa u original detrás, y por tanto, los datos tienen que seguir el mismo principio.

 

  • Los datos son clave para el desarrollo socioeconómico: Gran parte del desarrollo socioeconómico de una sociedad recae en los datos que esta genera. Impedir o restringir el acceso a estos datos atrasa el progreso.

 

  • La ciencia se sostiene en los datos: todo experimento científico tiene que poder ser reproducible. Por lo tanto, facilitar los datos de investigación favorece tanto la replicación como la creación de conocimiento derivado y complementario.

La Carta Internacional de los Datos Abiertos

En el año 2015, durante la Cumbre Global de la Alianza para el Gobierno Abierto en México, se creó la Carta Internacional de los Datos Abiertos. Esta carta propone un conjunto de principios y buenas prácticas para la liberación de datos abiertos gubernamentales. Hoy en día, España no se ha adherido, pero sí que lo han hecho varias comunidades autónomas, incluida Cataluña, que lo hizo en 2018.

La carta establece que los datos liberados por gobiernos tienen que seguir estos principios:

  • Abierto por defecto.
  • Oportuno y completo.
  • Accesible y utilizable.
  • Comparable e interoperable.
  • Para la mejora de la gobernanza y la participación ciudadana.
  • Para el desarrollo inclusivo e innovación.

Los formatos de los datos

La teoría de los datos abiertos está muy bien, pero no sirve de mucho si a la hora de la verdad no elegimos un formato adecuado. Sin embargo, para compartir correctamente los datos tenemos que elegir formatos que todos los usuarios puedan abrir. Por eso, generalmente se recomienda usar formatos derivados del software libre.

En muchos casos, se acostumbra a elegir el formato en el cual se han generado los datos. Uno de los formatos más comunes para compartir los datos es el formato CSV (Valores separados por comas). Otros formatos utilizados incluyen:

TXT

TXT: Formato de texto plano.

XLS

XLS: Formato de los archivos de Excel.

XML

XML: Extensible Markup Language, lenguaje web para el intercambio de datos.

ZIP

ZIP: Formato de compresión sin pérdida.

JSON

JSON: JavaScript Object Notation, lenguaje web para el intercambio de datos, actualmente se considera una alternativa a XML.

 

RDF

RDF: Resource Description Framework. Infraestructura de descripción de recursos en red.

RSS

RSS: Really Simple Syndication. Formato derivado de XML.

Dificultades de acceso a los conjuntos de datos

Elegir formatos propietarios es uno de los errores más comunes que dificultan el acceso a estos datos. Otras prácticas erróneas que pueden dificultar el acceso son:

  1. Hacer pagar para acceder a los datos.
  2. Obligar a los usuarios a registrarse para acceder.
  3. Utilizar una licencia que no permita la reutilización.
  4. Patentar los datos.
  5. Restringir el acceso a solo los rastreadores de internet de algunos buscadores.
  6. Incluir los datos en una base de datos protegida por el derecho sui generis de la propiedad intelectual.
  7. Limitar el tiempo durante el cual los datos se puedan acceder.

Cómo estructurar los datos

No todos los datos se pueden expresar correctamente en una hoja de cálculo. Actualmente, hay tres estructuras utilizadas en la difusión de los datasets:

Estructura en tabla

Los datos se organizan en filas y columnas. Por ejemplo, el número de usuarios que tiene un museo cada día.

excel

Estructura jerárquica

Ideal para datos vinculados en una estructura arbórea vertical. Por ejemplo, la plantilla de una organización.

jerarquia

Estructura en red

Idóneo para datos donde se puede establecer una combinación en cualquier dirección. Es la estructura de los contactos de las redes sociales.

redes sociales

¿Quién genera los datos abiertos?

A pesar de que cualquier persona u organización puede generar datos y ponerlos en abierto, generalmente los conjuntos de Open Data acostumbran a provenir de tres grandes productores:

  • La administración pública y el gobierno.
  • La ciencia.
  • Grandes organizaciones internacionales.

Gobiernos abiertos

Gran parte de los datos generados por la administración pública y el gobierno son consultables bajo las diferentes iniciativas de transparencia y gobierno abierto. La apertura de los datos públicos fomenta la transparencia de las administraciones públicas y promueve la colaboración de la sociedad en la mejora de los servicios públicos.

En nuestra sociedad hay diversos casos de aplicaciones o programas creados a partir de los datos en abierto que ofrece el gobierno. Algunos buenos ejemplos son el portal de datos abiertos de la Generalitat de Catalunya o el del Ayuntamiento de Barcelona. En el ámbito internacional tenemos el portal de datos abiertos del Reino Unido o el de la Unión Europea.

Data Server

Open Science Data

Los científicos fueron los pioneros en todo el mundo de los datos abiertos. El concepto de datos científicos en abierto fecha del año 1957. No fue hasta el año 1966 que se creó la primera base de datos en línea: Medline.

A estas alturas, se está produciendo un boom de datos abiertos en ciencia, promovidos en parte por la popularidad del Open Access. También influye que gran parte de los contratos bajo la iniciativa Horizon 2020 establecen que se tiene que disponer en abierto no solo de las publicaciones derivadas de la investigación, sino también los datos que esta ha generado. A pesar de que hay muchas instituciones que optan por introducir los datos derivados de la investigación en sus propios repositorios institucionales, también podemos encontrar grandes iniciativas internacionales como el European Open Science Cloud o el Open Science Data Cloud.

Organizaciones internacionales

Siguiendo la estrategia de los gobiernos, y favoreciendo la transparencia, grandes organizaciones internacionales como la ONU o la OMS también tienen sus propios portales de datos abiertos.

Open Data y otros movimientos abiertos

Los objetivos que impulsan el movimiento de datos abiertos son en gran parte compartidos por otros movimientos que defienden el conocimiento abierto. Las iniciativas abiertas más populares son:

  • Acceso abierto: Movimiento a favor del libre acceso a las publicaciones científicas y académicas.
  • Contenidos abiertos: Incluye todo el contenido publicado bajo una licencia de libre acceso, copia, distribución o modificación. Incluye materiales audiovisuales y de otros formatos.
  • Conocimiento abierto: Esta iniciativa comprende casi todos los contenidos abiertos, incluidos materiales docentes.
  • Software libre: Todo el software que puede ser usado, estudiado, modificado, copiado y redistribuido sin ninguna restricción.

Conclusiones

En pocas palabras, los datos abiertos no son solo una necesidad, si no directamente una obligación en los tiempos que corren. Todo el mundo tiene que tener derecho al acceso de estos datos, puesto que de una manera o de otra participan en su creación. Por lo tanto, cualquier individuo o entidad tendría que tener la libertad para utilizar esta información, ya seamos un gobierno o una persona anónima.