Caracterizando la implementación de Gobierno Transparente


La implementación para cumplir la "Ley N° 20.285 - sobre Acceso a la Información Pública", denominada "Gobierno Transparente", tiene un sabor a "linkeddata". La opción tradicional implicaba implementar un sistema centralizado, donde se cargan los datos y permite consultar. Recordemos que la forma de cumplir con la normativa de publicar los datos en la web, se implementó con un modelo distribuido pero asistido, pasando por el siguiente flujo para cada servicio:

- Bajar las planillas desde http://www.gobiernotransparente.cl/

- Llenar las planillas con los datos respectivos (*)

- Utilizar los asistentes disponibles para generar las páginas con los datos, url (**) e índices

- Subir la información a cada sitio web (***)


Las particularidades corresponden a los puntos con asteriscos, que presentan una similitud con el modelo de datos linkeados en la web (linkeddata):

(*) Lo que se está haciendo al llenar una planilla es "crear instancias de una clase", asi cada fila de la planilla es una "instancia de la clase que define la planilla" con las "propiedades detalladas en el encabezado de la hoja". En la práctica, la planilla es "el esquema".
(**) Algunas url están "linkeando" a otros sistemas, que luego pueden extenderse con más información, ver por ejemplo listado de urls de "chileclic", y listado de urls del "Registros Ley N° 19.862".

(***) Al publicar las páginas en cada sitio, se da libertad para "ajustar" el formato de las páginas y urls.

Al utilizar un modelo distribuido, se tienen problemáticas similares a las de "linkeddata":

- Se requiere tipos de datos estrictos (e.g. para fecha, valores)

- Existe una evolución de vocabulario (e.g. cambio de planilla para dotación entre años)

- Es necesario contar con taxonomias para realizar agregación automática (e.g. nombre de servicios/instituciones, tipo de pagina)

Existen pocas soluciones de este tipo y quitando el antecedente del formato en que se serializan los datos, se tiene una oportunidad, ya que "conceptualmente el problema es el mismo que si tuvieramos los datos con RDF", en particular están incluidos los problemas listados anteriormente. Bajo este análisis y convencido cada vez más que la fuente de datos del "Gobierno transparente" puede ser explotada ahora, he comenzado con una serie de tareas que permitan caracterizar mejor los sub-sitios que mantiene cada servicio. Estas tareas son:

1.- Construir un listado de instituciones con páginas de transparencia

2.- Implementar un "sistema asistido" para: clasificar las páginas y rescatar los esquemas

3.- Presentar opciones de consulta que permita caracterizar cada sub-sitio


Construir un listado de instituciones con páginas de transparencia

Anteriormente ya se tenía un listado de instituciones, ahora se presenta el listado actualizado, con mas antecedentes y con opciones de filtrado (ofrecidos por exhibit). El listado es mantenido en una hoja de google spreadsheets.

Ver listado.

La información del listado proviene del sitio chileclic y se puede complementar con la información existente en la Dirección de Presupuesto, del Ministerio de Hacienda.

Implementar un "sistema asistido" para: clasificar las páginas y rescatar los esquemas

Mediante un sistema de bookmarklet y gracias a que cada página de los sub-sitios mantienen un formato estandarizado, es posible rescatar la siguiente información: url, institución, clase, periodo, actualización y esquema. Los datos son presentados para que puedan ser editados (funciona como una ventana de delicious o un bookmarklet de diigo) y luego son enviado mediante un formulario a una hoja de google spreadsheets.

La parte novedosa de esta herramienta consiste en utilizar un algoritmo de similaridad de strings (levenshtein) para buscar y normalizar el nombre de la institución, para ello es mandatorio contar con la lista de instituciones (descrita en el punto anterior).

Copiar el bookmarklet ClasificadorTransparencia a la barra de marcadores.



Presentar opciones de consulta que permita caracterizar cada sub-sitio

Utilizando opciones de filtrado y facetas (ofrecidos por exhibit), es posible "recorrer" el listado de páginas y esquemas recolectados con la herramienta del "sistema asistido", permitiendo caracterizar el número de páginas por institución, categoría, año y tipo.

Consultar características de páginas para 20+ instituciones.

Los pasos siguientes son:

1.- agregar opciones avanzadas para detectar clase (tipo de página), la consecuente categoría y parsear mejor el periodo

2.- permitir actualizar la clasificación de una página y dar opciones de colaboración

3.- recolectar las instancias de cada página, para ello ya se tiene un prototipo para el bookmarklet de DatosTransparencia

4.- presentar opciones para caracterizar y consular las instancias


No hay comentarios: