S •1.1 • Introducción a los datos •

"Necesitamos mirar a toda la sociedad y pensar: "¿Estamos realmente pensando en lo que estamos haciendo a medida que avanzamos y estamos preservando los valores realmente importantes que tenemos en la sociedad? "
Tim Berners Lee

Por Javiera Atenas, con la contribución de Juan Pane

Los datos son características o información, generalmente numérica, que se recopilan mediante la observación. En un sentido más técnico, son un conjunto de valores de variables cualitativas o cuantitativas sobre una o más personas u objetos, mientras que un dato es un valor único de una sola variable. Los datos se transforman en información cuando se crean, extraen, elaboran y utilizan con objetivos preestablecidos. El sistema de información, a menudo compuesto por datos del mismo o diferente tipo (el conjunto de datos se define como un “dataset”), se transforma en conocimiento cuando se interpreta gracias a herramientas, aplicaciones, métodos, indicadores, etc.

Los datos pueden ser pequeños o grandes, privados, personales, gubernamentales, militares, científicos, públicos, confidenciales, comerciales, financieros o abiertos, y normalmente pertenecen a información entregada en formatos de archivo legibles por máquina en un formato sin procesar conocido como datos crudos. Los formatos más comunes son integer, número coma flotante, carácter, “string” (cadena de caracteres) y “boolean” (datos lógicos). Con la constante evolución de la tecnología, los contenidos informativos y los datos en poder de las administraciones públicas representan excelentes oportunidades para promover la transparencia en la actuación de gobiernos y administraciones. Además, pueden ofrecer servicios más eficientes y, dado que facilitan la reutilización por otros sujetos públicos y privados, también pueden ser utilizados en áreas distintas de aquellas para las que han sido producidos o recolectados. El conocimiento, en la práctica, adquiere el valor de conciencia – en el caso de los datos abiertos se puede definir como “colectivo”, entendido como el “bien común” – cuando se utiliza para el cambio y la mejora de la realidad (los hechos).

Si bien los datos son características de la información que se recolectan a través de la observación, la información se entiende como una representación simbólica que describe hechos, condiciones, valores o situaciones, recolectados y ordenados de manera adecuada para cumplir con el objetivo de la institución que los administra. Por sí solos, estos valores carecen de valor semántico, es decir, no tienen significado para alguien, por lo que no aportan valor. Para que estos datos tengan sentido, deben procesarse, asociarse o agruparse dentro del mismo contexto para formar información. Por lo tanto, podemos concluir que la información es un conjunto organizado de datos procesados ​​y relacionados de una manera que nos permite comunicarnos o adquirir conocimientos.

1• 1.1 • Entendiendo los datos abiertos •

Según la Carta Internacional de Datos Abiertos, “Los Datos Abiertos son datos digitales que se ponen a disposición con las características técnicas y legales necesarias para que puedan ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, en cualquier momento y en cualquier lugar”. La Carta ha surgido a partir de diálogos entre gobiernos y sociedad civil, que han dado como resultado la promoción de la adopción de los seis principios que se describen a continuación. Además, Open Data (o datos abiertos) ha sido definido por Open Knowledge Foundation como aquello que puede ser utilizado, reutilizado y redistribuido libremente por cualquier persona; sujeto únicamente, como máximo, al requisito de atribuir y compartir. Los principios técnicos básicos de Open Data pueden entenderse de la siguiente manera:

  • Disponibilidad y acceso: los datos deben estar disponibles en su totalidad o en su defecto a un costo de reproducción razonable, preferiblemente mediante descarga a través de Internet. Los datos también deben estar disponibles en un formato conveniente y modificable.
  • Reutilización y redistribución: los datos deben proporcionarse en condiciones que permitan la reutilización y la redistribución, incluida la interrelación con otros conjuntos de datos.
  • Participación universal: todos deben poder usar, reutilizar y redistribuir; no debe haber discriminación contra los campos de actividad o contra personas o grupos. Por ejemplo, las restricciones “no comerciales” que impedirían el uso “comercial” o las restricciones de uso para determinados fines (por ejemplo, solo en la educación) no están permitidas.

Los seis principios de datos abiertos desarrollados por la Carta de Datos Abiertos son un conjunto de normas aspiracionales acordadas globalmente sobre cómo publicar datos, que se pueden resumir de la siguiente manera:

  •  Abiertos por defecto: Representa un cambio real en cómo opera el gobierno y cómo interactúa con los ciudadanos. Por el momento, a menudo tenemos que pedir a los funcionarios la información específica que queremos. Datos abiertos por defecto invierte esta ecuación y estipula que debería haber una presunción de publicación para todos: los gobiernos deben justificar los datos que se mantienen cerrados, por ejemplo, por motivos de seguridad o protección de datos. Para que esto funcione, los ciudadanos también deben confiar en que los datos abiertos no comprometerán su derecho a la privacidad.
  • Oportunos y exhaustivos: Los datos abiertos solo son valiosos si siguen siendo relevantes. Hacer que la información se publique de forma rápida y completa es fundamental para su potencial de éxito. En la medida de lo posible, los gobiernos deberían proporcionar datos en su forma original y sin modificaciones.
  • Accesibles y utilizables: Asegurarse de que los datos sean legibles por máquinas y fáciles de encontrar hará que los datos lleguen más lejos. Los portales son una forma de lograrlo, pero también es importante pensar en la experiencia de usuario de quienes acceden a los datos, incluidos los formatos de archivo en los que se proporciona la información. Los datos   deben ser gratuitos bajo una licencia abierta, como por ejemplo las desarrolladas por Creative Commons.
  • Comparables e Interoperables: Los datos tienen un efecto multiplicador: cuanto más acceso se tenga a conjuntos de datos de calidad, y más fácil sea hablar entre ellos, más valor se podrá obtener. Los estándares de datos comúnmente acordados juegan un papel crucial para que esto suceda.
  • Para mejorar la Gobernanza y la participación ciudadana: Los datos abiertos tienen la capacidad de permitir que los ciudadanos (y otros en el gobierno) tengan una mejor idea de lo que están haciendo los funcionarios y los políticos. Esta transparencia puede mejorar los servicios públicos y ayudar a que los gobiernos rindan cuentas.
  • Para el Desarrollo Inclusivo y la Innovación: Por último, los datos abiertos pueden ayudar a impulsar el desarrollo económico inclusivo. Por ejemplo, un mayor acceso a los datos puede hacer que la agricultura sea más eficiente o puede usarse para abordar el cambio climático. A menudo pensamos en los datos abiertos como una forma de mejorar el desempeño del gobierno, pero existe todo un universo de emprendedores que ganan dinero con los datos abiertos.

El gobierno de Canadá resume los beneficios de los datos abiertos de la siguiente manera:

  • Apoyo a la innovación: el acceso a los recursos del conocimiento en forma de datos apoya la innovación en el sector privado al reducir la duplicación y promover la reutilización de los recursos existentes.
  • Fomento de la rendición de cuentas del gobierno y la reforma democrática: el mayor acceso a los datos y la información del gobierno brinda al público una mayor comprensión de las actividades gubernamentales, la prestación de servicios y el uso del dinero de los impuestos.
  • Aprovechar la información del sector público para desarrollar productos comerciales y de consumo: el acceso abierto y sin restricciones a los datos científicos con fines de interés público, en particular la información estadística, científica, geográfica y ambiental, maximiza su uso y valor, mientras que la reutilización de los datos existentes en aplicaciones comerciales mejora tiempo de comercialización para empresas.
  • Mejor uso de la inversión existente en infraestructura de información comunitaria y de banda ancha: Canadá ha invertido en redes de información y comunicaciones en forma de infraestructura técnica y servicios comunitarios, como bibliotecas y agencias de servicios sociales.
  • Apoyo a la investigación: el acceso a los datos de investigación federales respalda la investigación primaria basada en evidencia en las comunidades de investigación académica, del sector público y de la industria canadiense e internacional. El acceso a colecciones de datos, informes, publicaciones y artefactos que se encuentran en instituciones federales permite el uso de estas colecciones por parte de los investigadores.
  • Brindar acceso a la información de servicios del sector público: para posibilitar la toma de decisiones informadas, por ejemplo, estadísticas de viajes aéreos en tiempo real, puede ayudar a los viajeros a elegir una aerolínea y comprender los factores que pueden provocar retrasos en los vuelos.
  • Divulgación proactiva: proporcionar de manera proactiva datos que sean relevantes para la ciudadanía reduce la cantidad de acceso a solicitudes de información, campañas de correo electrónico y consultas de los medios. Esto reduce en gran medida el costo administrativo y la carga asociados con la respuesta a tales consultas.

 

Activity

Este video (está en Inglés) te ayudará a familiarizarte con la navegación del porta de datos abiertos de la EU (Comunidad Europea)

1• 1.2 • Abriendo los datos •

Un Dataset (conjunto de datos) es una colección de registros de datos organizados donde cada elemento tiene la misma estructura, ordenados para ser procesados ​​por una computadora. Un conjunto de datos puede ser la lista de escuelas de un país, la lista de todos los contratos estatales para todas sus instituciones o el presupuesto general de la nación, por ejemplo ver: Earthdata

El mismo conjunto de datos puede tener múltiples distribuciones (o recursos) que pueden variar en dos dimensiones de la siguiente manera.

  • Temporal: en este caso, el mismo conjunto de datos tiene registros asociados con un tiempo. Por ejemplo, el presupuesto general de la nación tiene una versión diferente cada año, al igual que la lista de contratos de un gobierno.
  • Formato: cada conjunto de datos se puede representar en varios formatos. Por ejemplo, si consideramos que la lista de contratos gubernamentales se puede representar en una tabla, se puede digitalizar para abrirla con Acrobat Reader (en formato .pdf), o Microsoft Excel (.xls), mediante cualquier procesador de texto (. csv) o procesados ​​por sistemas automatizados (.json), entre otros.

Se puede utilizar una amplia variedad de formatos para disponibilizar  los datos al público; sin embargo, no todos cumplen los requisitos necesarios para definir dichos datos como “abiertos”. El formato en el que se publica la información, es decir, la base digital con la que se almacena la información, puede, de hecho, ser abierta o cerrada.

Un formato abierto es aquel en el que las especificidades del software están disponibles para cualquiera, de forma gratuita, para que cualquiera pueda utilizarlas en el propio software sin ninguna limitación de reutilización impuesta por los derechos de propiedad intelectual. Cuando, en cambio, el formato es cerrado, puede significar que el formato es propietario o cerrado y que las características técnicas no están disponibles públicamente o que el formato de archivo es propietario y, aunque las especificaciones técnicas son públicas, su uso es limitado.

La razón fundamental por la que es importante aclarar el significado de “abierto” y por qué utilizar exactamente esta definición se puede resumir en un término: interoperabilidad. Ésta es la capacidad de diferentes sistemas y organizaciones para trabajar juntos. En nuestro caso, es la capacidad de combinar una base de datos con otras. La interoperabilidad es la clave que permite la primera ventaja práctica de la apertura: aumenta exponencialmente la posibilidad de combinar diferentes bases de datos y así, desarrollar nuevos y mejores productos y servicios.

Además, la ventaja de los archivos en formatos abiertos es que esto permite a los desarrolladores producir software y servicios utilizando estos formatos. Esto minimiza los obstáculos para reutilizar la información que contienen. El uso de formatos propietarios puede generar dependencia de software de terceros o de los licenciatarios de los formatos. En el peor de los casos, esto puede significar que la información se puede leer utilizando solo un formato de software específico, lo que podría ser prohibitivamente caro o quedar desactualizado con el tiempo.

Publicar datos en portales de datos abiertos de manera eficiente es clave para desarrollar estrategias que aborden lo siguiente:

  • ¿Qué datos se publicarán de forma iterativa y cuándo? Se refiere a la hoja de ruta para publicar la información. Dado que los recursos generalmente son limitados, es difícil inicialmente publicar el 100% de toda la información disponible. Entonces, es importante tener una hoja de ruta para tener objetivos claros y priorizados en relación a lo que se publicará. y cuándo se logrará.
  • ¿Dónde se publicarán los datos? ¿Cómo se publicarán los datos? Se refiere a la decisión de la dirección web (la URL) donde estará el portal de datos abiertos, así como las decisiones respecto a los formatos en los que se publicarán los datos (JSON, CSV, JSON-LD). Algunas cosas que son importantes a considerar son, por ejemplo, si incluirá una API para desarrolladores o si se esperan descargas masivas.
  • ¿Cuál es la frecuencia de actualización de datos?  Debe identificarse que hay conjuntos de datos que necesitan una frecuencia de actualización más alta que otros, y algunos, por ejemplo, requieren actualizaciones diarias (nocturnas, al mediodía, etc.), semanales, mensuales, etc.
  • ¿Quién es el responsable de la publicación de los datos? Se refiere a los responsables de la gestión de datos (sistema, institución, etc.). En todos los casos, se debe especificar quién publica los datos y quién es el responsable de mantener su veracidad y calidad.
  • ¿A quién contactar si tiene preguntas? Es importante explicar claramente cómo realizar consultas relacionadas con los datos, para evitar malos entendidos.
  • ¿Qué licencia se utilizará para publicar los datos? La licencia define los permisos que otorga el propietario de los datos en relación con lo que pueden hacer los usuarios. Una licencia abierta (para datos abiertos) debe al menos requerir atribución a la fuente y redistribución con la misma licencia.
  • ¿Dónde puedo encontrar más información de referencia? Debe haber un lugar dentro del portal de datos abiertos donde pueda acceder a más información sobre temas relacionados, como donde puede encontrar diccionarios de datos, manuales de datos o proporcionar enlaces a sitios donde puede encontrar estos datos.
  • ¿Cuál es el marco regulatorio de referencia? Es muy importante contar siempre con todas las referencias necesarias relativas a políticas, leyes, decretos, resoluciones, circulares, etc., que sirvan de referencia a todo lo que se expone en el portal de datos abiertos.

 

1• 1.3 • Publicando los datos abiertos •

El enfoque técnico para la apertura de datos se basa en el esquema de apertura de datos de cinco estrellas definido por Tim Berners-Lee, un resumen del cual se puede ver en la figura de cinco estrellas. Este esquema propone una escala incremental de niveles de apertura de datos, donde cada nivel implica un avance en términos de los objetivos de los datos abiertos: libertad de uso, reutilización y redistribución

Esquema de uso Cinco Estrellas (Bernes Lee, T.)

 

El gran salto a la tercera estrella, la tercera estrella implica que los datos están en un formato no propietario, es decir, pueden ser consumidos y reutilizados por cualquier persona. Con este fin, las organizaciones de datos abiertos abogan por la estandarización de los formatos abiertos que se utilizarán para facilitar el trabajo de los consumidores de datos. Estos formatos se resumen en la siguiente tabla.

INSERTAR TABLA 1 aqui

Un punto importante a tener en cuenta es que, según el tipo de datos a publicar, existen diferentes formatos a utilizar. Por ejemplo, si los datos son tabulares, es decir, están contenidos en una tabla, uno de los formatos más utilizados es CSV. Por otro lado, si los datos indican georreferenciación existen otros formatos especializados para representar esta información. A continuación, se muestran algunos de los tipos y formatos de datos más utilizados.

INSERTAR TABLA 2 AQUI

Al diseñar una política de datos abiertos, se recomienda enfocarse en el usuario, consultar la demanda de datos y en base a esto priorizar los datos a publicar. A la hora de desarrollar un plan de apertura de datos, es necesario que quienes publican los datos, ya sea la academia o el sector público, analicen y comprendan cuáles son los conjuntos que podemos considerar de alto valor o de mayor relevancia, para así priorizar su publicación de acuerdo con ciertos factores, como su valor para las comunidades de usuarios o para promover la participación pública. También se deben considerar otros elementos que puedan surgir en casos de contingencia nacional o internacional, como los datos sobre emergencias o desastres naturales, epidemias o casos de corrupción, los cuales necesitan ser publicados rápidamente.