Modelo School

El siguiente es el esquema de una school en Freebase, se destacan algunas propiedades de tipo de dato complejo, que son enlaces a otros esquemas.

Modelo InfoEscuela

El siguiente esquema muestra el modelo subyacente en el sitio de InfoEscuela.


Opciones para la capa de presentación

Para la visualización de las fuentes de datos se puede utilizar una de las herramientas disponibles de consultas por facetas:

Iteración I

Seleccionamos las escuelas y los órganos del estado como dominios para los casos de estudio. En primera instancia (durante las próximas tres semanas), se realizara el trabajo sobre las escuelas.

El objetivo es generar información en RDF para Organismos Educacionales, para lo cual se deben seguir los siguientes pasos:
  • Generar el modelo
  • Crear ontología (OWL o RDFS)
  • Obtener información desde sitios públicos, dejando un registro de cada fuente utilizada
  • Generar sitio que publica vista con XHTML+RDFa y RDF
  • Publicar RDF

Datastores escalables y distribuidos

Para los motores en el cloud computing tanto Amazon como Google implementan su propia versión de datastore escalable.

Estos se unen a las soluciones opensource:

Evaluación de dominio para los casos de estudio

En el siguiente cuadro se presenta una evaluación para los dominios a trabajar en los casos de estudio.

Dominio Volumen de datos
Utilidad Impacto
Escuelas medio alto alto
Órganos del Estado alto alto medio
Deportes bajo media alto
Medios bajo baja alto

Las categorías seleccionadas son: Escuelas y Órganos del Estado, ya que tienen un volumen de datos razonable, presentan un beneficio social (utilidad) y mayor impacto.

RDFa

Uniendo la web de humanos y la de data.

Notas de la lectura de RDFa :
  1. Permite agregar semantica a xhtml
  2. No se requiere duplicar las entradas
  3. Un ejemplo de una pagina marcada con RDFa y el extracto utilizando RDFa Distiller

Datos de colegios II

Una idea para que el trabajo de recolección de información sea útil, es subir los datos y esquema a Freebase. Por ejemplo una meta puede ser subir todos los colegios de Chile, seria un buen aporte, mas considerando que existe casi 12k colegios y el total de instituciones educacionales en FreeBase es de solo 32k.

Tratando de implementar un screen scraper para InfoEscuela, noto que la implementacion de ese servicio hace muy difícil la automatización de consultas. Los problemas encontrados son:
  1. El identificador de la escuela seleccionada es almacenado como un estado de sesión en el servidor, lo típico es que ese id sea parte de una url (al estilo http://pagina.cl/app?id=18 o http://sitio.cl/app/id/18), o se pase por un campo hidden de un formulario o bien se almacene en una variable cookie
  2. La data de una escuela esta distribuida en distintas paginas
Por otra parte, y para ayudar a resolver los problemas anteriores, se puede utilizar la información disponible en otro sitio del Ministerio de Educación, se trata del Directorio de Establecimientos donde esta disponible una fuente de datos de todos los establecimientos (es una planilla excel, pero con información de mucho valor).

Como un dato que se repite en los distintos sitios y fuentes de datos del Ministerio de Educación esta el campo llamado RBD, que es un identificador único para cada establecimiento, este datos se puede utilizar para generar la URI de los colegios.

Con la fuente de datos del Directorio de Establecimientos, se puede realizar el siguiente ejercicio para cada registro:
  1. Rescatar el valor del campo RBD (XXX)
  2. Generar una consulta a la siguiente pagina: http://www.infoescuela.cl/InfoEscuelas/BuscaByRbd?RBD=XXX
  3. Rescatar los datos requeridos de esa pagina
  4. Generar una consulta a cada una de las subpaginas y rescatar los datos requeridos:
    • Escuela:
    • http://www.infoescuela.cl/InfoEscuelas/Ciudadanos/nuestra-escuela.jsp
    • http://www.infoescuela.cl/InfoEscuelas/Ciudadanos/nuestra-escuela-cobros.jsp
    • http://www.infoescuela.cl/InfoEscuelas/EquipoDirectivoSv
    • http://www.infoescuela.cl/InfoEscuelas/Ciudadanos/nuestra-escuela-profesores.jsp
    • http://www.infoescuela.cl/InfoEscuelas/Ciudadanos/nuestra-escuela-participacion.jsp
    • Infraestructura:
    • http://www.infoescuela.cl/InfoEscuelas/Ciudadanos/infraestructura-instalaciones.jsp
    • http://www.infoescuela.cl/InfoEscuelas/Apd
    • http://www.infoescuela.cl/InfoEscuelas/Ciudadanos/infraestructura-inversion-jec.jsp
    • Resultados:
    • http://www.infoescuela.cl/InfoEscuelas/SimceSv
    • http://www.infoescuela.cl/InfoEscuelas/PsuSv
    • http://www.infoescuela.cl/InfoEscuelas/IndEfSv
    • http://www.infoescuela.cl/InfoEscuelas/LogrosSv
    • http://www.infoescuela.cl/InfoEscuelas/PApoyoSv
    • Beneficios:
    • http://www.infoescuela.cl/InfoEscuelas/AyEstSv
    • http://www.infoescuela.cl/InfoEscuelas/AFCSv
    • Financiamiento:
    • http://www.infoescuela.cl/InfoEscuelas/FinanSv

Páginas de transparencia

Tengo el siguiente levantamiento con los enlaces a paginas de transparencia en los órganos del estado.

Datos de colegios

Encontré una fuente de datos de donde podemos "colgarnos" para obtener información como caso de ejemplo, la pagina se llama InfoEscuela y es del Ministerio de Educación. Lo interesante es que contiene datos de contacto y sitios web para cada colegio.

Una propuesta es aplicar un screen scraper a este sitio y generar data marcada, esto junto a la información de Transparencia Activa son los primeros candidatos a ser las fuentes de datos para el caso de ejemplo.
El sitio tiene una sección llamada ¿sabia usted que...?, que tiene alguna información estadística destacada:


"En Chile, existen 11.763 establecimientos educacionales, según las estadísticas publicadas por el departamento de estudio en el 2007. Esta cifra varía regularmente. De los 11.763 establecimientos, 5.909 son municipales, 5.054 particulares subvencionados, 730 son particulares pagados y 70 corresponden a la modalidad de administración delegada. Del total mencionado, 7.337 corresponden al área urbana y el resto 4.426 a rural (2007)."

Establecimientos

Establecimientos

"En el sistema regular se desempeñan 174.882 docentes de los cuales 124.321 son mujeres y 50.561 son hombres (2007)."

Docentes

"Un total de 8.880 establecimientos del país impartieron enseñanza básica en el año 2006. Para ese mismo año, la matrícula de Educación Básica fue de 2.187.375 niños y niñas. De estos, un 48% cursa algún grado de primer ciclo básico y un 52% cursa algún grado de segundo ciclo básico."

"Para asegurar espacio y aire suficiente a los alumnos(as) los recintos disponen de mediciones reguladas por ley. En el caso de las salas cuna éstas deben contar con una superficie de 2.50 m² por cada niño(a); en enseñanza básica, media y superior, la cantidad es 1.10 m² por estudiante."

"El Ministerio de Educación ha implementado a la fecha 1.644 Bibliotecas/CRA en establecimientos con Enseñanza Media y 3.016 en Enseñanza Básica (2007)."


Vinculación de datos libres

Revisando la información disponible sobre la web semántica, veo que han nacido algunos buzzwords nuevos, entre ellos Web3.0, Web of data y Linked data. Es este ultimo el que me parece que mejor describe la idea de incorporar datos marcados en los sitios web, en contraste a lo "futurista de la web semántica".

Incluso la charla de TimBL, destacada en una entrada anterior, se llama "The next Web of open, linked data". En la W3C existe una fuerza de trabajo destinada a "Linking open data", donde se destaca el workshop Linked Data on the Web (LDOW2009) que es parte de la conferencia WWW2009 y que ya tiene disponible todos los papers que se presentaran, donde destaco los siguientes:

Infraestructura

Como infraestructura para el desarrollo de la tesis he creado los siguientes componentes, todos hosteados por google.
El blog es este sitio, implementado utilizando blogger, en el se presentara el avance diario y los antecedentes relacionados con la tesis.

El repositorio es un proyecto hosteado en google code, en el se puede almacenar el código fuente, administrar issues, proveer un espacio de descarga y documentar la implementación.

La aplicación es un espacio en google app engine donde se pueden ejecutar los los sistemas desarrollados, utilizando código en python.

Raw data now

El viernes pasado revisamos la solución de publicación de información en el contexto de transparencia del gobierno. La implementación consiste en que cada órgano del estado debe seguir una normativa para publicar la siguiente información:

  1. Adquisición y Contratación
  2. Personal
  3. Transferencias
  4. Marcos normativos
  5. Actos y Resoluciones

Encontré el siguiente buscador de las paginas del gobierno transparente, implementado sobre google. No es un buscador semántico, seguramente por la falta de la data estructurada. Una alternativa para obtener información "marcada", a partir de las paginas publicadas de gobierno transparente, es utilizar un "Screen Scrapers" (como dapper o piggy bank) sobre cada pagina publicada en los sitios gubernamentales, para luego generar y publicar la data. Antes de esto se debe generar el esquema de la información (ontología).

Quizás hace falta mayor difusión al estilo de TimBL, quien hace gritar "RAW DATA NOW" a los asistentes a su charla en TED.


Metodología de trabajo

Hoy nos reunimos para retomar el trabajo de tesis de grado de Magíster en Ciencias. Acordamos como metodología de trabajo realizar un encuentro presencial cada 15 dias y al menos un checkpoint mediante e-mail semanal.

El primer compromiso, de corto plazo, es presentar una revisión de los objetivos de la propuesta de tema de tesis, la cual debe estar definida al 31/03/2009. Los tres objetivos a desarrollar durante el trabajo de tesis son los siguientes:
  1. Desarrollar un marco general
  2. Diseñar una infraestructura
  3. Implementar un caso de ejemplo
Se deben presentar distintos ámbitos de trabajo (dominios para el caso de estudio), evaluarlos y seleccionar el o los dominios sobre los cuales implementar el caso de ejemplo.