Fundación CTIC

Catálogos de Datasets RISP en RDF


Un conjunto de datos o dataset es una colección de datos publicados, que están disponibles en formatos abiertos en la Web. Para que estos datasets puedan conectarse con otros, deberían tener sus datos identificados por direcciones Web únicas (URIs). Uno de los principales problemas en la reutilización de datos en formatos abiertos es la dificultad de encontrar esos datos que están publicados en algún lugar de la Web debido a la carencia de repositorios homogéneos de los conjuntos de datos (datasets) y la falta de actualización de los mismos.

Con un poco de experiencia es fácil llegar a los conjuntos de datos que se necesita, por ejemplo, navegando por los datasets de la nube de Linked Open Data, o explorando catálogos como el del wiki de SWEO del W3C.

Los índices de conjuntos de datos que expresan sus conjuntos de forma tabular (tipo data.gov) pueden considerarse la primera versión de presentación de esta información. Una versión 2.0 debería ser la publicación del propio catálogo mediante XML o RDF en un fichero descargable o, que se pudiesen consultar automáticamente, a través de interfaces tipo SPARQL endpoints, como se detalla en este post y posteriores.

Descripción de los catálogos en RDF

El descubrimiento y la utilización de los datasets existentes es bastante sencillo si se conoce donde buscarlos, pero ésto se complica si se pretende hacer de forma automática. Una solución a la automatización podría ser la definición de catálogos y de los conjuntos de datos en sí mediante tecnologías de la Web Semántica. Para ello se necesitaría modelar un vocabulario con RDF-Schema o en OWL y, posteriormente, describir los catálogos y sus detalles. Finalmente, tanto el vocabulario como las descripciones deberían ser publicadas para que cualquiera pudiera reutilizarlas o enriquecerlas.

El Vocabulario para conjuntos de datos enlazados (voID) es un vocabulario y conjunto de recomendaciones que facilita el descubrir y reutilizar conjuntos de datos de forma automática. Este vocabulario especifican clases como Dataset o propiedades, como numberOfTriples (número de tripletas especificadas en el dataset).

Para describir los catálogos se utilizan los vocabularios estándar (Dublin Core, FOAF, etc.), además de usar un vocabulario propio que, entre otros términos, contiene la clase Catalog, para representar a los Catálogos de conjuntos de datos. Para indicar que ciertos conjuntos de datos (void:Dataset) pertenecen al catálogo se puede especificar de la siguiente forma:

<Dataset> memberOf <Catalog>

Ejemplo de descripción de un Catálogo

Cada catálogo de datasets tiene una serie de información básica, como es su nombre, descripción, licencia o términos de uso de los datos, fecha de primera publicación, o la página de entrada donde se encuentra el índice de los datasets (o el endpoint de los servicios de sus APIs). A continuación se declara en notación N3 la definición del catálogo de San Francisco, EEUU.

Se declaran los espacios de nombres para que la representación sea más legible:


@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.
@prefix foaf: <http://xmlns.com/foaf/0.1/>.
@prefix dcterms: <http://purl.org/dc/terms/>.
@prefix cat: <http://data.fundacionctic.org/vocab/catalog/datasets#>.

Se describe el catálogo en sí:


<http://data.fundacionctic.org/dataset-catalog/datasf.org> a cat:Catalog ;
         dcterms:identifier "datasf.org" ;
         foaf:homepage <http://datasf.org> ;
         rdfs:label "Catálogo de la Ciudad y del Condado de San Francisco (EEUU)" ;
         dcterms:title "Catálogo de la Ciudad y del Condado de San Francisco (EEUU)" ;
         dcterms:description "Repositorio de datasets de la Ciudad y del Condado de San Francisco" ;
         dcterms:language "en" ;
         dcterms:issued "2009-08-19" ^^http://www.w3.org/2001/XMLSchema#date ;
         dcterms:license <http://datasf.org/page.php?page=TOU> ;
         dcterms:spatial <http://sws.geonames.org/5391997/> .

En breve publicaremos el listado de los catálogos de datasets, modelado en RDF y con su correspondiente endpoint SPARQL.

,

  1. No hay Comentarios
(No será publicado)

Spam Protection by WP-SpamFree