Un Lenguaje de Consultas sobre Estructura y Contenido en Bases de Datos de Texto

Gonzalo Navarro (Ricardo Baeza-Yates, director)

Las bases de datos textuales estructuradas son relativamente nuevas en el área de recuperación de información. No existe un consenso acerca de cómo debería ser el modelo de estructuración. Las soluciones actuales se centran en los problemas o de expresividad o de eficiencia. Más aun, no hay un modelo formal y completo para analizar esta expresividad.

Nuestro objetivo es encontrar un modelo de estructuración y un lenguaje de consultas que sea suficientemente expresivo y eficientemente implementable. Para ello, se evaluaron las soluciones actuales, se definió un modelo con las características deseadas, se comparó su expresividad con los otros en términos teóricos y prácticos, se definieron algoritmos para implementarlo y se estudió la complejidad del peor caso en tiempo y espacio, y se desarrolló un prototipo para evaluar heurísticas y estudiar tiempos promedios en casos reales.

Este trabajo permite concluír que un lenguaje de consultas orientado a conjuntos y basado en operaciones sobre componentes estructurales cercanas de una o más jerarquías es suficientemente expresivo y eficientemente implementable. También presenta un marco para comparar expresividad, que da una idea de hasta dónde se puede enriquecer ésta sin degradar la performance. Por último, sugiere varias líneas de investigación futuras.