Fundación CTIC

Actualización de datos en la herramienta del Principado de Asturias de visualización de datos INE sobre equipamiento y uso de las TIC en Asturias.

Recientemente, hemos realizado en la actualización de datos de la aplicación para la visualización de datos estadísticos sobre el Equipamiento y uso de las TIC en Asturias.

Para ponernos en antecedentes, tal vez conviene recordar que este proyecto del Gobierno del Principado de Asturias aborda un proceso de transformación de datos estadísticos sobre el estado de la Sociedad de la Información en Asturias (datos obtenidos a partir del convenio de colaboración entre el Instituto Nacional de Estadística, el Instituto Asturiano de Estadística y Fundación CTIC) pertenecientes al catálogo de datos de Asturias a formatos abiertos con una doble finalidad:

  • Ponerlos a disposición de terceros (empresas, ciudadanía, etc.) para su reutilización y generación de nuevos contenidos y servicios de valor.
  • Generar una herramienta de gestión de datos estadísticos que permita la publicación de los datos del INE relativos al equipamiento y uso de las TIC en los hogares y en las empresas asturianas (encuestas TIC-H y TIC-E), facilitando la agregación de los mismos y la generación de visualizaciones que favorezcan su consumo.

La herramienta maximiza la experiencia de usuario mediante el uso tecnologías web (visualización en base a Linked Data), permitiendo una interacción con la herramienta sencilla e intuitiva, dotando al usuario de múltiples canales para personalizar consultas (configuración de consulta a través de selectores de datos con posibilidad de interactuar con los objetos gráficos, gráficas, tablas y mapas).

Con esta última actualización, se han añadido los datos de las últimas encuestas correspondientes al ejercicio 2011, por lo que los usuarios podrán consultar las estadísticas sobre equipamiento y uso de las TIC desde 2005 hasta 2011, pudiendo realizar visualizaciones de análisis evolutivos y comparativos entre Asturias y la media nacional registrada para los principales indicadores TIC, así como desagregados de los principales datos de Asturias por comarcas SADEI.

Entre las novedades incorporadas en los indicadores destacados de este año, destacan los relativos al uso de Internet por la ciudadanía en servicios relacionados con la participación política y social.

Esta aplicación es un ejemplo sobre el potencial de este tipo de herramientas para la visualización de datos estadísticos, así como para facilitar el acceso (configuración de consultas) y comprensión (representaciones sencillas) sin necesidad de realizar arduos ejercicios con herramientas de explotación estadística.

, , ,

No hay Comentarios

Conclusiones del debate Aporta sobre el estado del Open Data en España

Ayer se celebró una nueva edición del encuentro de iniciativas Open Data en España en la que, una vez más, se debatió sobre el estado de la apertura de la información en nuestro país y las iniciativas existentes.

La visión de la Administración

Al igual que en las conclusiones de la reciente Agenda Digital Europea, queda claro que el Open Data es un sector de gran futuro, ya que la reutilización se considera uno de los ejes principales en el camino hacia una administración eficiente y de calidad, así como para una gestión más democrática mediante la cual se consiga reconectar con los ciudadanos.

Compartir datos con los ciudadanos y empresas es también una herramienta de transparencia y creación de actividad económica, así como un ejercicio lógico en el que el foco de la gestión de la información pasaría de la Administración a los ciudadanos, que son los propietarios naturales. Gracias a la futura ley de transparencia, se espera también un ahorro de costes, una mejora de la transparencia, un aumento de la competitividad y la creación de nuevos servicios.

El retorno económico

El debate se abrió con la duda de por qué no llega el retorno económico pronosticado por el MEPSIR y otros estudios de referencia. La conclusión parece ser que es necesario estimular un mercado, que en ocasiones parece algo aletargado y poner más énfasis en las necesidades finales de los ciudadanos a la hora de priorizar qué es lo que se debe abrir.

Se considera que existen una serie de datos más sensibles o comprometidos (delincuencia, sanidad, etc.) a cuya publicación podría ser  más reticente la Administración y que son precisamente los que tienen un potencial mayor de generación de valor, sin embargo se estima que el volumen de negocio para los datos ya disponibles, tales como catastro, registros, boletines, etc., es en la actualidad en torno a los 200 millones de euros.

Las cifras del Open Data en España

Los datos adelantados del estudio de caracterización del sector infomediario en España que el ONTSI publicará próximamente nos muestran un universo de 150 empresas que generan entre 3.700 y 4.000 puestos de trabajo cualificados y de calidad.

La facturación total es de entre 330 y 550 millones de €, de los que el sector cultural aporta aproximadamente un 10% del total. Si además consideramos las potenciales sinergias entre la industria de los contenidos digitales y el Open Data, las cifras de negocio podrían llegar a unos 50.000 millones de €, lo que supondría un 5% del PIB en España.

Otro dato interesante es que un 87% de los datos reutilizados por las empresas proviene de la Administración Central y un 45% de portales específicos open data, quedando confirmados como un mecanismo útil para fomentar la reutilización. De estas cifras se puede concluir que existe todavía mucho margen de crecimiento, ya no solo con la liberación de nuevos datos, sino también con la incorporación de otras Administraciones regionales y locales.

El valor social y la cultura del dato.

Existe la sensación de que el valor social del Open Data se considera escaso en la actualidad debido a la tipología de los datos que se abren, aunque también hay que tener en cuenta que la barrera entre el valor social y valor económico es más bien difusa.

Una de las grandes barreras para la penetración del Open Data en la sociedad que se viene detectando de forma recurrente es la escasa cultura del dato existente en el país.

Para superar esta barrera el Open Data debería formar parte natural del propio procedimiento administrativo. La información debería ser reutilizable por defecto y ese debería ser su estado natural, devolviendo la información pública a la sociedad que es su propietaria natural. La apertura de datos debería ser considerada como un acto normal y cotidiano y no una excepción, esa sería la mejor manera de crear una cultura de los datos.

No es más abierto el que más abre, sino el que menos cierra – Iván Sánchez.

Los ciudadanos deberían poder utilizar los datos que fuesen necesarios para generar valor en el día a día, pero exigir los datos y hacer uso de ellos es una responsabilidad también de la ciudadanía. Es necesario crear un ciclo continuo de sensibilización, formación y liberación de datos, junto a acciones más cercanas que nos ayuden a generar verdaderas historias a partir de los datos.

Si hubiese preguntado a la gente qué querían me hubieran dicho que un caballo más rápido – Henry Ford.

Por otro lado, si no se conoce la existencia de los datos es probable que nunca se lleguen a necesitar, por lo que también es necesario ser proactivo en la publicación o, al menos, realizar un ejercicio de catalogación sobre los datos disponibles y dar a conocer el resultado como en el caso de Navarra. Dar más visibilidad a los datos, también ayuda.

La Comunidad RISP en España

España se puede considerar uno de los referentes europeos en materia de Open Data con un alto número de iniciativas en marcha y una comunidad muy activa. Como prueba de ello está el intenso debate online que ha tenido lugar de forma complementaria al encuentro. También existen algunas iniciativas interesantes surgidas de la propia comunidad y que han tenido gran acogida, como el decálogo Open Data. Sin embargo, existe una sensación generalizada de poca organización, avance lento y la existencia de diferentes corrientes.

Se podría decir que, en comparación con el resto de Europa, España no está mal situada, por lo que no debemos ser catastrofistas, pero dada la posición actual del país, el objetivo debería ser aspirar a estar en el liderazgo, mejorar los aspectos más débiles de la comunidad y unificar las iniciativas, que por otro lado es el gran reto pendiente a nivel Europeo.

Estandarización y normalización

Aunque el componente tecnológico no es el de mayor peso específico dentro de las iniciativas Open Data, si es un tema recurrente y se volvió a hablar de tecnología, cosa lógica por otro lado ya que no debemos olvidar que el gran facilitador del Open Data ha sido Internet, y que las iniciativa de apertura y participación previas a la era Internet han fracasado por falta de sostenibilidad.

Si no fuera por la plataforma abierta que nos ofrece Internet no estaríamos hablando de Open Data.

En general, se considera que todavía faltan las herramientas adecuadas para gestionar los datos y que en la actualidad las iniciativas están demasiado focalizadas hacia los portales open data en exclusiva. El problema de origen puede ser que la Administración no está planificada para compartir los datos hacia fuera con eficiencia, aunque existen iniciativas con el caso de la GenCat, que de forma similar a la nueva política de apertura de EEUU, evolucionan hacia un modelo ideal de abierto por defecto a través de una política de APIs unificadas y abiertas al público.

La normalización es también un aspecto fundamental para avanzar, es necesario habilitar mecanismos de colaboración entre el sector público, empresas y ciudadanos que nos permitan establecer o adoptar estándares comunes en campos como vocabularios, métodos de acceso o conjuntos de datos prioritarios. En este proceso de normalización la interoperabilidad es un factor clave, por lo que el uso de estándares que garanticen una neutralidad tecnológica será fundamental.

Destacar una vez más la importancia de los metadatos, ya que todo el sistema Open Data se basa en la posibilidad de un adecuado tratamiento automatizado de la información, por lo que si los datos no están bien descritos su valor será mucho más limitado. Mención especial en este campo para la solución simple, creativa y funcional que aplica el Instituto Canario de Estadística al utilizar los propios metadatos para proporcionar información sobre los perfiles de usuario potencialmente interesados en la información.

La legislación progresa también lentamente y, aunque la aprobación del RD de reutilización ha supuesto una mejora, todavía se percibe una burocracia excesiva y una legislación poco clara que debe ir también evolucionando.

Para terminar, una bonita reflexión a tener en cuenta:

Los datos son la materia prima de la Sociedad de la Información, vivimos en la sociedad del dato y abrir datos en ese contexto significa repartir riqueza – Marc Garriga

,

2 Comentarios

Los tres retos del Open Data en la Asamblea de la Agenda Digital Europea

Esta semana el  Workshop sobre Datos de la Agenda Digital Europea nos ha dejado una buena discusión acerca de las oportunidades y los obstáculos a los que se enfrenta el Open Data, así como reflexiones sobre cómo deben implicarse todas las partes interesadas para superarlos.

El plan de trabajo de la Comisión Europea

Las iniciativas de la Comisión Europea hasta el momento podrían resumirse como el desarrollo de una estrategia de comunicación de Datos Abiertos, la revisión de la directiva de la Información del Sector Público (PSI) y la política de reutilización de la Comisión Europea. Todo ello incluye el lanzamiento de la beta del nuevo portal Open Data de la Comisión Europea a mediados de Julio y un futuro portal Paneuropeo.

También es importante recordar la apuesta Europea por la gestión de los datos, el Open Data y el libre acceso a través de proyectos pilotos y portales mediante los programas de I+D+i FP7 y CIP 2011-13 que, aunque actualmente están prácticamente liquidados, tendrán su continuidad en el nuevo programa Horizon 2020.

Los temas candentes en cuanto a datos

Paul Miller hizo una estupenda introducción, basada en el diálogo previo online, en la que se revelaron los principales temas candentes para la Agenda: Open Data, Linked Data y Big Data, así como la importancia de las cuatro Vs de los datos: Gran Volumen, Velocidad, Variedad y Valor.

También nos recuerda la importancia de seguir las mejores prácticas en cuanto a estándares abiertos para Open Data, un tema recurrente, dado que actualmente contamos con más de 150 iniciativas en marcha a lo largo de Europa, pero todas ellas cuentan con componentes ligeramente diferentes.

Finalmente, François Bancihon en su discurso reivindicó una vez más la necesidad de una licencia única Europea y nos advirtió acerca de los peligros del Open Data y el Poder de los Datos con algunos ejemplos muy buenos:

  • Twitter cuenta con información más precisa acerca de las caídas del sistema de Netflix que la que el propio Netflix tiene.
  • Google tiene constancia de las notificaciones de desempleo antes incluso que las propias oficinas de empleo.
  • Target se entera de los embarazos de adolescentes antes que sus propios padres.

Áreas de aplicación de la reutilización

Bajo el lema inicial de que  Los datos son la nueva moneda de la democracia la primera sesión se centró en mostrar áreas de aplicación específicas:

Registros mercantiles

Sin lugar a dudas, uno de los temas más controvertidos del Workshop, debido sobre todo a el estupendo y controvertido informe presentado por Chris Taggart, de Open Corporates acerca de cómo de abiertos son los registros mercantiles en la Unión Europea, y la inevitable comparación con el modelo cerrado del  Registro mercantil Europeo basando en el pago por acceso.

Información Geográfica

Una vez más, impresionantes las estadísticas de uso de datos geográficos: 120k accesos y 60k Gb de datos. La información Geoespacial se confirma así como una de las áreas más exitosas para el Open Data en Europa, dado que el 80% de las decisiones que tienen que tomar las autoridades públicas cuentan con un componente geoespacial. Se trata sin duda de una capa fundamental y necesaria para el open data y la innovación, de ahí la necesidad de que el acceso sea libre.

Interesante también el caso de uso del Earth Observatory, que sirve de ayuda en la gestión de recursos como la energía, el agua potable o la agricultura, ayudando así a afrontar los retos sociales asociados. La lección a aprender en este proyecto: todos los intentos de comercializar los datos han fracasado, es necesario que se mantengan disponibles de forma abierta y gratuita. Importante también recalcar que la iniciativa fue posible gracias al apoyo del Gobierno, por lo que los Gobiernos tienen también un papel de liderazgo en el progreso del Open Data.

Transporte

La experiencia presentada se centró en los problemas y barreras legales encontradas durante su desarrollo. ¿Es el scrapping legal? ¿Quién es el propietario de la información? Desafortunadamente, nos encontramos con que en algunos casos la información es ya abierta por defecto, pero en otros casos los gestores de los datos se niegan a proporcionar los datos.

En el lado malo: Las reclamaciones en los tribunales suelen llevar meses o incluso años, independientemente de lo obvio que pueda resultar el caso.

Los retos del idioma en los datos

La sesión reunió a varias de las compañías Europeas expertas en los campos de traducción, internacionalización, localización y servicios multilingües, centrando la discusión en la semántica del contenido, no en los metadatos.

La conclusión fue que una de las pocas barreras que todavía tenemos en Europa son las barreras culturales e idiomáticas, lo que supone un problema real a la hora de conseguir un mercado digital único. El multilingüismo puede llegar a ser beneficioso si se explota adecuadamente, ya que una vez se consiguen procesar los datos en base al conocimiento del idioma obtendríamos una clara ventaja competitiva. El verdadero reto es ser capaz de procesar los datos multilingües y permitir que fluyan a través de idiomas, países y mercados.

Una infraestructura multilingüe será tan importante para Europa como la infraestructura de banda ancha.

Generación de valor y el futuro de la economía del dato en Europa

La última sesión se centró en la generación de valor mediante los datos, basándose en la premisa de que los datos por sí mismos no son valiosos y lo que necesitamos no es sólo tecnología, sino  soluciones de análisis que aporten conocimiento y ayuden en la toma de decisiones.

Mención especial para varias áreas de negocio intensivas en datos que son potenciales oportunidades para las PYMES: Venta al por menor, manufactura, medios sociales, envejecimiento de la población, gestión urbana, transporte, seguridad alimentaria, el sector público o la sanidad y medicina.

Existe también consenso en cuanto al hecho de que es el momento de buscar modelos de negocio innovadores en torno al Open Data, como por ejemplo el análisis de datos en tiempo real sin almacenamiento. La duda que sigue en el aire es ¿qué debe ser lo primero? ¿más datos abiertos o mejores modelos de negocio?

Los retos del Open

En la sesión de conclusiones, además de varias observaciones finales de las que se extrae que el Open Data será clave para la sostenibilidad de un mercado digital único, se consensuaron tres retos principales en cuanto al Open Data para la Agenda Digital:

  • Sostenibilidad de las iniciativas Open Data.
  • Casos de uso de interés público frente a casos de uso de negocio.
  • Retos del Multilingüismo.

Como conclusión final podemos terminar con una de las citas más memorables del día, por obra de Chris Taggart:

Abre tus datos o prepárate para decir adiós a la democracia

El debate continuará en el Encuentro Aporta de iniciativas Open Data en España la próxima semana.

, ,

1 Comentario

Open Data, e-Commerce y SEO

El crecimiento de la web de datos parece algo imparable. Cada vez son más las administraciones públicas que abren sus datos de forma estructurada. Todos los grandes actores en internet, redes sociales y principales servicios de búsqueda de información, cuentan ya con estrategias y tecnologías que permiten el intercambio de información en formatos estructurados estándar.

¿Cómo pueden las empresas de comercio electrónico (eCommerce) mantenerse al día y hacer de esta evolución tecnológica una ventaja competitiva?

Ademas de los aspectos generales relacionados con la transparencia, o la interoperabilidad con diversos sistemas de información, la principal ventaja que aporta la apertura de datos a las pymes de eCommerce es la mejora inmediata en su posicionamiento en buscadores (SEO). Y la manera más fácil de lograr esto para aquellas empresas que ya cuentan con un sitio web de sus productos es a través del marcado semántico de los contenidos de las páginas web.

Es paradigmático el ejemplo de Best Buy, uno de los mayores retailers de productos tecnológicos de Norteamérica. Cuando en 2009 se enriqueció el marcado html de sus páginas web los estudios realizados indicaron que en pocas semanas se había mejorado sustancialmente el ranking en Google, logrando un incremento del 30% en el número de visitas. En el buscador de Yahoo, obtuvieron un aumento del 15% en Click-Through-Rate (CTR). Cifras que deberían llamar la atención a cualquier empresa que quiere mejorar su presencia web.

Las ventajas que ofrecen los buscadores a los sitios que estructuran su información son ya una realidad. Rich Snippets es una tecnología consolidada de Google que mejora la presentación de las páginas encontradas como resultado de una búsqueda. Cuando Google identifica en la página encontrada datos estructurados es capaz de mostrar resultados enriquecidos basándose en esa información. La siguiente imagen es un ejemplo de como un negocio puede aparecer en su resultado si simplemente especifica su dirección y las votaciones de sus usuarios:

Es obvio que los usuarios van a sentirse más atraídos hacia aquellos resultados que son mejorados con datos estructurados, como muestra el ejemplo antes comentado de Best Buy.

Los grandes buscadores ya cuentan además con servicios especializados de productos y venta online tales como Google Product Search o Yahoo Shopping. Añadido a esto, cuando se realiza una consulta los buscadores tienen en cuenta factores como  la hora en la que se realiza o la localización geográfica del usuario, con el objetivo de ordenar los resultados de la forma más precisa. Por tanto, hacer llegar al buscador de forma estructurada información como la geolocalización de nuestras tiendas y productos, o nuestros horarios de apertura, es clave para obtener mayor relevancia en los resultados.

Ahora bien, ¿cómo puede una empresa de eCommerce lograr esto? ¿Qué tecnologías nos permiten hacer llegar a los motores de búsqueda nuestros datos embebidos en las páginas web? Por un lado tenemos dos tecnologías que extienden html y que nos permiten marcar datos incrustados. Son RDFa (más potente, basada en el framework semántico RDF) y Microdata (más sencilla de usar).

Basadas en alguna de estas dos tecnologías tenemos dos familias de vocabularios que nos permiten dar significado preciso a nuestra información. Por un lado está Good Relations, que se ha convertido en el vocabulario más desarrollado especializado en eCommerce y que nos permite definir conceptos como productos, ofertas, precios y tiendas. La otra opción es el uso de Schema.org, un estándar más reciente de los grandes buscadores (Google, Yahoo, Bing) que no sólo permite definir datos de eCommerce, sino también información más genérica tal como obras creativas, personas o lugares.

La siguiente imagen es un ejemplo sencillo de como se puede enriquecer un trozo de html, en este caso con información sobre una película, usando Schema.org y microdata:

Evidentemente, no debería ser necesario el marcado manual del código html de cada una de nuestras páginas de productos y tiendas. Se esperaría que el software de los portales y los diversos sistemas gestores de contenidos web tuvieran funcionalidades que permitieran realizar con facilidad estas tareas. Los mapeos de nuestra información a uno de los vocabularios mencionados (GoodRelations o Schema.org) se establecerían una sola vez y posteriormente el sistema se encargaría de enriquecer de forma automática el marcado html de las páginas.

Los gestores de contenidos web opensource más importantes ya cuentan con soporte nativo para el SEO semántico o están en vías de incorporarlo. Por ejemplo, WordPress cuenta con plugins tanto para GoodRelations como para Schema.org; igualmente, Drupal tiene módulo específicos en desarrollo (Schema.org, RDFa).

Las plataformas de software especializadas para tiendas online también están siguiendo esta tendencia. Dos de las tiendas virtuales más usadas y con mayor proyección, Magento y Prestashop, disponen de extensiones para el marcado de su información mediante GoodRelations.

Es evidente por tanto que el soporte al SEO semántico se va a convertir en una de las características claves para elegir la plataforma de software sobre la que un negocio arranque su web o tienda  online.

Hoy por hoy es difícil dar una respuesta concreta sobre qué opción tecnológica elegir entre las disponibles. Schema.org cuenta con el respaldo estandarizador de los grandes buscadores, pero GoogRelations es más potente y extensible gracias a RDFa, y no le va a faltar soporte en el futuro cercano. Lo realmente importante es usar una de las vías disponibles, la que nos resulte más fácil de implantar en nuestro sistema de gestión de contenidos.

Se ha dicho en cierto sentido que si no estás en internet no existes. No sólo eso, sino que buena parte del éxito futuro de una empresa de comercio electrónico pasará por estar en la nueva web, la web de datos.

No hay Comentarios

Galicia y Castilla y León abren sus datos1n7r

Esta semana hemos recibido sólo buenas noticias. Tras el lanzamiento y apertura del periodo de comentarios sobre el anteproyecto de la Ley de transparencia nacional, ayer vio la luz el proyecto de apertura de datos de la Xunta de Galicia (Abert@s). Si esto no fuera poco, ayer comenzamos a oír ecos del Portal de Datos Abiertos de la Junta de Castilla y León, que acaba de ser publicado.

Ya teníamos ganas de tener noticias de estos proyectos, ya que sabíamos del interés de ambos por seguir los estándares y buenas prácticas internacionales (sección de buenas prácticas seguidas por JCyL), y refuerzan el compromiso de ambas Comunidades Autónomas por el fomento de la Reutilización de la Información del Sector Público. Ambas aproximaciones tienen en cuenta y conocen los beneficios/problemas de la exposición de datos siguiendo el paradigma de Linked Data, y lo demuestran publicando algún conjunto de datos a través del modelo RDF.

Ejemplos de estas buenas prácticas se aprecian en una de las partes más delicadas de la iniciativa, la posibilidad de reutilización. Tanto el portal de la Xunta como el de la Junta cuentan con un centenar de conjuntos de datos publicados bajo una licencia  Creative Commons – Atribución e incluyen información adicional de relevancia para facilitar la tarea de reutilización. Por ejemplo, la ficha del conjunto de datos de procedimientos y trámites de Junta de Castilla y León, que permite la descarga de las distribuciones en formato CSV o XML, incluye una sección de descargas asociadas donde se puede acceder al esquema XSD asociado al volcado XML y una descripción de los campos que se pueden encontrar en el CSV.

Las fichas del catálogo especifican las fechas de alta y la frecuencia de actualización de los conjuntos de datos en el portal, así como una categorización de la información que permite una buena gestión.

Algo a destacar positivamente del catálogo de datos de Junta de Castilla y León es que únicamente contiene conjuntos de datos que están expuestos a través de formatos abiertos y estándar. Ambos proyectos ofrecen la posibilidad de interacción directa con sus responsables, para solicitar datos o reportar errores (formulario de Galicia, y de Castilla y León).

Abertos - Portal de Datos Abiertos de la Xunta de Galicia

Abertos - Portal de Datos Abiertos de la Xunta de Galicia

Datos Abiertos de Junta de Castilla y León

Datos Abiertos de Junta de Castilla y León

¡Enhorabuena a los dos! Sigue creciendo la familia Open Data en España.

, , , , ,

3 Comentarios