Preservación

Hace un par de meses que en mi cabeza ronda la idea de "la necesidad de una infraestructura centralizada para la preservación de los datos gubernamentales". Quizás porque el proyecto subyacente es una mezcla de mis dos especialidades: Infraestructura + Datos. Luego de lanzar la idea, sin mucho desarrollo, una respuesta fué que esta problemática es la misma que los libros, donde la solución es asegurar la preservación mediante la distribución en distintas bibliotecas. Nada más cierto, ese es el modelo que se debe seguir, veamos que es lo que dice el "otro DCC" al respecto.


El "Digital Curation Centre" (DCC en UK): "El objetivo del centro es proporcionar un enfoque nacional para la investigación y el desarrollo en cuestiones de preservación y promover conocimientos y buenas prácticas, tanto nacionales como internacionales, para la gestión de todos los resultados de la investigación en formato digital". Partes de las problemáticas que se deben tratar con la preservación digital están: Obsolescencia tecnológica, Conservación, Autenticidad y Confianza. El enfoque que tiene el DCC es sobre los datos generados para materias científicas y académica. Pensemos que los datos gubernamentales serán de interés para alguna de las ramas científicas, como por ejemplo para los estudios sociológicos.

El DCC propone un modelo para manejar el ciclo de vida de preservación, que en parte se refleja en la figura presentada arriba en esta entrada. Sobre una eventual propuesta de infraestructura centralizada para alojar los datos el DCC publicó un Estudio de Infraestructura Nacional de Datos, donde luego de revisar la realidad de distintos países, se destacan algunos antecedentes:

1.- No existen ni políticas ni infraestructura centralizada a nivel nacional
2.- Las políticas son institucionales y de organismos de financiación de investigación
3.- Las soluciones nacionales se plantean como distribuidas, entregando el ambiente requerido
4.- Los costos y la provisión de infraestructura son temas abiertos

Podemos concluir entonces, que más que una "infraestructura centralizada" lo más conveniente es implementar un modelo distribuido para asegurar la preservación de los datos, al estilo de The Dataverse Network Project, que se asemeja a "una red de bibliotecas" para datos académicos/científicos.

Es importante notar que el mundo de los datos generados desde las áreas académicas y científicas están concentrando la atención, como es el caso del libro recientemente publicado por Microsoft Research "The Fourth Paradigm: Data-Intensive Scientific Discovery". Esta área de interés, el dominio científico/académico, pudo ser uno de los evaluados para los casos de estudio desarrollados en la tesis y quizás quedaba fuera por "presentar demasiados datos y no tener la infraestructura para alojarlos".


En el mismo tema de preservación, pero ahora relacionado con "linkeddata" y datos de gobierno, es justamente en UK, donde siguiendo los pasos de EEUU, Australia y Nueva Zelanda están lanzando su plataforma para exponer datos en la Web, pero esta vez asesorados por TBL, uno de sus primeros documentos generados dice relación con el diseño de URI para el sector público, donde se destaca las siguientes recomendaciones novedosas:
  • "El conjunto de URI (URI set, ver figura arriba en esta entrada) que se promueven para la reutilización deben ser diseñados para durar al menos 10 años" (final de la página 3).

  • "Sobre el dominio de un Conjunto de URI que se promueven para la reutilización: ... se mantenga a perpetuidad; No contenga el nombre del departamento o agencia ... ya que puede ser reasignada" (punto 3 en la página 6).
El hecho de colocar como primer lineamiento el de Diseño de URI no es casualidad, claramente se está siguiendo el stack de la Web Semántica.


Caracterizando la implementación de Gobierno Transparente


La implementación para cumplir la "Ley N° 20.285 - sobre Acceso a la Información Pública", denominada "Gobierno Transparente", tiene un sabor a "linkeddata". La opción tradicional implicaba implementar un sistema centralizado, donde se cargan los datos y permite consultar. Recordemos que la forma de cumplir con la normativa de publicar los datos en la web, se implementó con un modelo distribuido pero asistido, pasando por el siguiente flujo para cada servicio:

- Bajar las planillas desde http://www.gobiernotransparente.cl/

- Llenar las planillas con los datos respectivos (*)

- Utilizar los asistentes disponibles para generar las páginas con los datos, url (**) e índices

- Subir la información a cada sitio web (***)


Las particularidades corresponden a los puntos con asteriscos, que presentan una similitud con el modelo de datos linkeados en la web (linkeddata):

(*) Lo que se está haciendo al llenar una planilla es "crear instancias de una clase", asi cada fila de la planilla es una "instancia de la clase que define la planilla" con las "propiedades detalladas en el encabezado de la hoja". En la práctica, la planilla es "el esquema".
(**) Algunas url están "linkeando" a otros sistemas, que luego pueden extenderse con más información, ver por ejemplo listado de urls de "chileclic", y listado de urls del "Registros Ley N° 19.862".

(***) Al publicar las páginas en cada sitio, se da libertad para "ajustar" el formato de las páginas y urls.

Al utilizar un modelo distribuido, se tienen problemáticas similares a las de "linkeddata":

- Se requiere tipos de datos estrictos (e.g. para fecha, valores)

- Existe una evolución de vocabulario (e.g. cambio de planilla para dotación entre años)

- Es necesario contar con taxonomias para realizar agregación automática (e.g. nombre de servicios/instituciones, tipo de pagina)

Existen pocas soluciones de este tipo y quitando el antecedente del formato en que se serializan los datos, se tiene una oportunidad, ya que "conceptualmente el problema es el mismo que si tuvieramos los datos con RDF", en particular están incluidos los problemas listados anteriormente. Bajo este análisis y convencido cada vez más que la fuente de datos del "Gobierno transparente" puede ser explotada ahora, he comenzado con una serie de tareas que permitan caracterizar mejor los sub-sitios que mantiene cada servicio. Estas tareas son:

1.- Construir un listado de instituciones con páginas de transparencia

2.- Implementar un "sistema asistido" para: clasificar las páginas y rescatar los esquemas

3.- Presentar opciones de consulta que permita caracterizar cada sub-sitio


Construir un listado de instituciones con páginas de transparencia

Anteriormente ya se tenía un listado de instituciones, ahora se presenta el listado actualizado, con mas antecedentes y con opciones de filtrado (ofrecidos por exhibit). El listado es mantenido en una hoja de google spreadsheets.

Ver listado.

La información del listado proviene del sitio chileclic y se puede complementar con la información existente en la Dirección de Presupuesto, del Ministerio de Hacienda.

Implementar un "sistema asistido" para: clasificar las páginas y rescatar los esquemas

Mediante un sistema de bookmarklet y gracias a que cada página de los sub-sitios mantienen un formato estandarizado, es posible rescatar la siguiente información: url, institución, clase, periodo, actualización y esquema. Los datos son presentados para que puedan ser editados (funciona como una ventana de delicious o un bookmarklet de diigo) y luego son enviado mediante un formulario a una hoja de google spreadsheets.

La parte novedosa de esta herramienta consiste en utilizar un algoritmo de similaridad de strings (levenshtein) para buscar y normalizar el nombre de la institución, para ello es mandatorio contar con la lista de instituciones (descrita en el punto anterior).

Copiar el bookmarklet ClasificadorTransparencia a la barra de marcadores.



Presentar opciones de consulta que permita caracterizar cada sub-sitio

Utilizando opciones de filtrado y facetas (ofrecidos por exhibit), es posible "recorrer" el listado de páginas y esquemas recolectados con la herramienta del "sistema asistido", permitiendo caracterizar el número de páginas por institución, categoría, año y tipo.

Consultar características de páginas para 20+ instituciones.

Los pasos siguientes son:

1.- agregar opciones avanzadas para detectar clase (tipo de página), la consecuente categoría y parsear mejor el periodo

2.- permitir actualizar la clasificación de una página y dar opciones de colaboración

3.- recolectar las instancias de cada página, para ello ya se tiene un prototipo para el bookmarklet de DatosTransparencia

4.- presentar opciones para caracterizar y consular las instancias