Día 3 y Día 4

El día miércoles pude dedicar poco tiempo al trabajo de tesis, principalmente revisando alguna solución para generar RDF y publicarlos.

El día jueves se dedicó a generar RDF desde los datos parseados de transparencia, el trabajo estuvo acotado a los datos de Dotación (el 80-20 de los datos). Gran parte del esfuerzo fue destinado a clasificar los datos, particionando las tablas según los siguientes criterios:
  • Tipo de dotación (planta, contrata, honorario, otra)
  • Fecha (el año al que corresponden los datos)
El principal problema encontrado fue la cantidad de esquemas distintos que se publican para cada tipo de datos, entendiendo que los headers de las tablas representan el esquema. Para muestra, y luego de normalizar las etiquetas, se encuentran los siguientes 31 esquemas:
  1. contrato|estamento|paterno|materno|nombres|grado|funcion|region|nombreregion|ingreso|ini|fin|obs|
  2. dotacion|estamento|paterno|materno|nombres|grado|funcion|region|ini|fin|obs|
  3. estamento|paterno|materno|nombres|grado|funcion|region|ini|
  4. estamento|paterno|materno|nombres|grado|funcion|region|ini|fin|obs|
  5. estamento|paterno|materno|nombres|grado|funcion|region|ini|fin|obs|estab|
  6. estamento|paterno|materno|nombres|grado|funcion|region|ini|fin|obs|ley afecto|
  7. estamento|paterno|materno|nombres|grado|funcion|region|renta|ini|fin|
  8. estamento|paterno|materno|nombres|grado horas|funcion|region|ini|fin|obs|
  9. estamento|paterno|materno|nombres|obs|grado|region|ini|fin|
  10. estamento|rut|dv|corr|paterno|materno|nombres|obs|grado|region|ini|fin|
  11. n|estamento|paterno|materno|nombres|grado|
  12. n|estamento|paterno|materno|nombres|grado|region|ini|fin|obs|
  13. n|estamento|paterno|materno|nombres|obs|funcion|calificacion|region|ini|fin|estab|
  14. n|estamento|paterno|materno|nombres|obs|grado|region|ini|fin|
  15. n|estamento|paterno|materno|nombres|obs|grado|region|ini|fin|estab|
  16. n|estamento|paterno|materno|nombres|obs|grado|region|ini|fin|n res.|
  17. n|n|estamento|paterno|materno|nombres|obs|grado|region|ini|fin|
  18. n|paterno|materno|nombres|funcion|calificacion|
  19. n|paterno|materno|nombres|funcion|calificacion|grado|region|um|honorario|ini|fin|obs|
  20. n|paterno|materno|nombres|funcion|calificacion|region|ini|fin|
  21. n|paterno|materno|nombres|funcion|calificacion|region||ini|fin|estab|obs|
  22. n|paterno|materno|nombres|obs|funcion|calificacion|region|ini|fin|
  23. n|paterno|materno|nombres|obs|grado|region|ini|fin|
  24. n|planta|estamento|corr|paterno|materno|nombres|grado|region|ini|fin|obs|
  25. n|planta|estamento|corr|paterno|materno|nombres|region|grado|ini|fin|estab|funcion|profesion|obs|
  26. n|planta|estamento|paterno|materno|nombres|region|grado|ini|fin|estab|funcion|profesion|obs|
  27. paterno|materno|nombres|funcion|calificacion|grado|region|um|honorario|ini|fin|obs|
  28. paterno|materno|nombres|funcion|calificacion|region|um|honorario|ini y fin|obs|
  29. paterno|materno|nombres|funcion|grado|region|um|remuneracion|ini|fin|obs|
  30. paterno|materno|nombres|obs|funcion|calificacion|region|ini|fin|
  31. paterno|materno|nombres|obs|funcion|profesion|region|ini|fin|
La buena noticia, es que justamente una de las características de RDF es la flexibilidad en sus esquemas, por lo que sin importar que existan entidades que difieran en cantidad o tipos de atributos, esto no es un problema.

Luego, al tener los esquemas de cada archivo procesado normalizado, la generación de RDF es directa, ver en el update del repositorio los cambios en el código con los script de generación.

Al aplicar sobre 50M de datos tabulados, se generaron 300M de datos en RDF serializados en xml.

Cada "entrada de dotación" se modeló con el siguiente esquema:


Una instancia de dotación, se describe de la siguiente forma con el vocabulario visual:
Lo que viene es dejar todos los datos en un triplestore y presentar por facetas.

No hay comentarios: