Fundación CTIC

Archivo etiqueta web semántica

Ciberpaís: el Gobierno de Asturias libera sus datos públicos

El Ciberpaís publica en su edición de hoy un artículo con el título “el Gobierno de Asturias libera sus datos públicos” en el que se hace eco de la labor del equipo Open Data @ CTIC sobre la apertura de datos del gobierno de Asturias. Anteriormente ya hemos publicado en este mismo blog algunos ejemplos. Esperamos que la fase final de este proyecto vea la luz en los próximos días y os mantendremos informados desde este mismo blog.

captura del artículo en Ciberpaís

El artículo en Ciberpaís con foto del equipo de Open Data @ CTIC

, , , ,

2 Comentarios

Cómo publicar Linked Data

Cuando nuestra administración ya ha decidido que quiere publicar sus datos de forma abierta y semántica surge la pregunta: ¿Cómo publicamos Linked Data? Recordamos ahora brevemente los principios que deben cumplir nuestros datos para ser considerados Linked Data:

  • Nuestros recursos deben ser unívocamente identificables a través de su URI. Las URIs deben estar basadas en el esquema HTTP para hacer su gestión descentralizada y para hacer su acceso ubicuo a través de la web.
  • Los recursos deben ser descritos mediante RDF que es el modelo de datos de la web semántica. De entre las diferentes representaciones RDF, al menos la serialización oficial en XML, RDF/XML, debe estar disponible para cada recurso.
  • Para crear una auténtica web de datos es necesario que los datos estén enlazados. Nuestros recursos deben incluir referencias en forma de enlaces RDF a otras fuentes de datos y, en la medida de lo posible, deberían ser referenciados desde recursos externos.

En realidad,  los principios de la web de datos son muy parecidos a los de la web tradicional de páginas. Cuando a través de una URL devolvemos descripciones de recursos en RDF ya estamos publicando linked data.

Formas de publicación RDF

A la hora de crear las descripciones en RDF de nuestros recursos tenemos varias posibilidades dependiendo de las circunstancias.

Cuando los datos a publicar son pocos y se espera que no cambien mucho con el tiempo, la forma más práctica de generarlos es mediante un recurso o fichero estático. Un ejemplo típico de esta estrategia son los recursos FOAF (“foaf.rdf”) que son colgados en los sitios web.

Otra forma de realizar las descripciones es obtenerlas de documentos ya existentes no RDF. RDFa es el estándar del W3C que permite embeber RDF en páginas web. Mediante la especificación GRDDL es posible extraer información semántica de documentos XML mediante transformaciones XSL. Existen también otras utilidades “RDF-ificadoras” que transforman en semánticos datos disponibles en otros formatos como hojas excel.

Cuando el volumen de nuestros recursos es elevado no es útil mantener una serie de ficheros descriptores estáticos para cada uno. La forma de publicación más utilizada es generar los documentos RDF de forma dinámica cuando llega una petición para una URI concreta. El W3C ha creado la especificación SPARQL, que define un lenguaje de consultas para RDF. Típicamente, un servidor semántico hará público este punto de consultas a traves del protocolo HTTP. Cuando el servidor recibe una petición para la URI de un recurso concreto esta petición es transformada en una consulta SPARQL sobre los datos de ese recurso, que son devueltos al cliente serializados en RDF/XML.

Plataformas para la publicación

Una vez que hemos definido las descripciones de nuestros recursos, ¿cómo y dónde las colgamos? De nuevo las opciones son similares a cuando publicamos en la web tradicional.

Si tenemos entre manos un proyecto grande de publicación de recursos semánticos, por cuestiones de almacenamiento y escalabilidad la mejor opción pudiera ser recurrir a plataformas especializadas que ofrezcan este tipo de servicios. Sin duda en el futuro proliferarán este tipo de soluciones aunque en la actualidad organizaciones como Talis ya ofrecen una plataforma de esta naturaleza.

Si optamos por publicar y mantener nuestros datos en nuestro propio servidor también disponemos de otras tecnologías, a menudo open source. Dos diferentes opciones son almacenar nuestros datos en un formato nativo de tripletas RDF o bien generarlos dinámicamente en base a otros formatos. Por ejemplo, Virtuoso, que es un completo servidor con soporte para almacenar modelos RDF y publicación mediante protocolo SPARQL; D2R, utilidad que mapea y publica de forma semántica los datos de bases de datos relacionales existentes; o Pubby, herramienta que genera y gestiona las URIs de nuestros recursos cuando ya se dispone de un punto SPARQL con datos publicados.

Acciones a seguir

Una vez que nuestros recursos son deferenciables (accesibles) desde la web la “visibilidad” de nuestros datos dependerá del número de recursos externos que los referencien. Para ayudar a que nuestros recursos sean más fácilmente descubiertos existen, igual que en la web tradicional, servicios de registro de datos semánticos. Uno de ellos es Ping the Semantic Web. También es buena idea apuntar nuestros recursos en páginas web que actúan como directorios para humanos, como esta lista de servicios semánticos .

Próximamente en entradas de este blog ahondaremos en algunas de las cuestiones técnicas mencionadas con algunos ejemplos y casos de uso.

, , ,

1 Comentario

Publicamos los primeros datasets del sector público: la oferta de formación ocupacional

En Open Data @ CTIC hemos ido contando en las semanas anteriores algunas de las razones estratégicas para embarcarse en un proyecto de reutilización de datos del sector público, así como varios aspectos técnicos y no técnicos del camino a seguir que proponemos como el más adecuado. Hemos ofrecido una prueba de concepto de todo lo expuesto utilizando como modelo los catálogos de datos abiertos que varias administraciones han publicado a nivel mundial. Como os habréis podido imaginar, hay mucho más en lo que hemos estado trabajando, y por fin ha llegado el momento de hablar de ello.

Hemos modelado la oferta de formación ocupacional del Servicio Público de Empleo del Principado de Asturias. Se resume en tres datasets: las acciones formativas (o cursos), los centros donde se imparten dichos cursos, y las organizaciones que imparten dichos cursos. Éstos a su vez constituyen un super-dataset.

los tres datasets de la formacion ocupacional en el cubo de la web semántica

Hemos trabajado con una foto de los datos que tomamos en Julio de 2009. Te puedes descargar todos los datos en RDF/XML en bruto (como pedía Tim Berners-Lee con su Raw Data Now!). Pero hay más formatos, o como parece ser el estándar de facto:

Nombre Área Última Actualización Formatos
Formación Ocupacional 2009 Servicio Público de Empleo, Principado de Asturias 2009-07-24 RDF/XML
XML
HTML
JSON
Excel

Por supuesto, también tienes nuestro SPARQL endpoint para filtrar los datos a tu antojo y, si te preguntas como interpretarlos, está también disponible el vocabulario que hemos utilizado para modelar toda la oferta formativa.

Para acabar, por ahora, también hemos creado algunas visualizaciones de ejemplo, en las que puedes filtrar los datos visualmente y ver los resultados en un mapa, una línea de tiempo e incluso descargarte los cursos que te interesen a tu calendario (en formato iCal).

visualizaciones de los datos en mapa, línea de tiempo y calendario

visualizaciones de los datos en mapa, línea de tiempo y calendario

¿Quién da más? Nosotros. Hay mucho, mucho más que contar sobre estos datasets, y muchas más cosas en las que estamos trabajando intensivamente. Atentos a los próximos artículos.

, , , , ,

7 Comentarios

Reutilización de datos: el camino a seguir

En las publicaciones anteriores hemos visto un ejemplo de cómo la apertura de datos y la proliferación de distintas interfaces de uso público nos permiten la reutilización de los mismos, pero no necesariamente nos la “facilita”.

A partir del ejemplo práctico observábamos como es posible satisfacer nuestras necesidades de información para un caso de uso concreto, pero también nos hemos dado cuenta de cómo la necesidad de dar cabida a ese caso de uso específico, que no estaba directamente contemplado cuando se diseñaron las respectivas interfaces, da lugar a que, lo que inicialmente debería ser una operación relativamente sencilla, acabe complicándose debido a la necesidad de realizar múltiples llamadas y almacenar y gestionar los resultados intermedios para poder conseguir una combinación de datos adecuada que responda a nuestras necesidades concretas.

La problemática actual

El problema de la “personalización” se repite con cierta frecuencia ya que, como es lógico, cuando se crea y desarrolla un interfaz para uso público se hace pensando en los casos de uso más frecuentes o comunes porque intentar prever todos los casos de uso sería imposible. En consecuencia, en cuanto nos desviamos mínimamente del “guión preestablecido” es fácil que comiencen las complicaciones.

También es frecuente que al utilizar fuentes de datos muy diversas que no comparten patrones comunes, nos podamos encontrar con problemas en la interpretación de los datos, conjuntos incompletos, conjuntos discrepantes, etc. Nuevamente es probable que, con mayor o menor esfuerzo y siempre dependiendo de su complejidad, podamos resolver esas discrepancias, o al menos las más críticas.

Por tanto, con un simple ejercicio práctico ha sido fácil comprobar lo útil y beneficiosa que es de por sí la apertura de datos, puesto que gracias a ello hemos podido obtener la información que necesitábamos,  aunque no sin esfuerzo. Sin embargo, si siguiésemos una estrategia adecuada, conseguiríamos no solo los beneficios básicos de compartir la información, sino los beneficios añadidos de hacerlo de una forma eficaz y eficiente, evitando los problemas anteriormente mencionados.

El camino hacia una reutilización eficicente

Dado que nuestro objetivo final es facilitar el acceso a la Administración mediante un mejor uso de la Web, no deberíamos limitarnos a buscar soluciones para compartir datos, sino que debemos buscar soluciones eficaces y eficientes, soluciones robustas que tengan en cuenta los principios de modularidad, redundancia mínima, escalabilidad e interoperabilidad entre otras buenas prácticas.

Las tecnologías de Web Semántica, los Datos Enlazados y el seguimiento de los principios generales de la Arquitectura Web pueden erigirse como la solución ideal para publicar de forma abierta los datos de la Administración y evitar estos problemas, al proporcionarnos un modelo de datos flexible que permite integrar fácilmente la información.

Los datos enlazados

Una vez hayamos expuesto los conjuntos de datos no debemos considerar que el trabajo ya está terminado, ya que la parte más interesante, y clave para conseguir una Web autodescriptiva, consiste en identificar los vínculos existentes entre los distintos conjuntos de datos y representarlos adecuadamente. Para ello podremos contar nuevamente con las tecnologías de Web Semántica, puesto que sus características de enlazado, como por ejemplo la integración automática de datos provenientes de varios orígenes, o la posibilidad de realizar consultas a través de diversas fuentes de forma transparente, son únicas y no las proporciona ningún otro modelo.

Los vínculos que se establezcan entre conjuntos de datos representados mediante tecnologías de Web Semántica nos permitirán navegar fácilmente entre los distinto datos relacionados, además de proporcionarnos opciones de búsqueda y consulta más avanzadas que las convencionales y, gracias a que los resultados de las consultas serán datos estructurados y no solo simples textos o enlaces, podrán a su vez ser reutilizados por cualquier aplicación.

Durante la siguiente serie de publicaciones veremos cómo, gracias al uso adecuado de estas tecnologías, todas estas tareas se verán simplificadas y se realizan de forma más eficaz, eficiente y robusta, lo que nos resultará especialmente útil para facilitar la Reutilización de la Información en el Sector Público.

,

No hay Comentarios