Usando Técnicas de Compresión de Textos en Bibliotecas Digitales

Eva Lorenzo Iglesias, Nieves R. Brisaboa, José R. Paramá, Antonio Fariña, Gonzalo Navarro and María F. Esteller

El almacenamiento de los textos de una biblioteca digital en formato comprimido es una alternativa que se hace cada vez más interesante a medida que las colecciones textuales crecen. Sin embargo, la mayoría de estas técnicas de compresión impiden la búsqueda de palabras sobre el texto comprimido sin descomprimirlo, de modo que se hace imposible aplicar eficientemente técnicas de text retrieval.

Recientemente han aparecido algunas técnicas específicas de compresión de textos que permiten la búsqueda de palabras directamente sobre el texto comprimido sin necesidad de descomprimirlo. En este trabajo se introducen dichas técnicas y se presenta un nuevo método de compresión de textos que denominamos Código Denso con Post-Etiquetado, que no sólo tiene un menor coste computacional sino que, además, consigue mejores tasas de compresión, conservando plenamente las capacidades de búsqueda sobre el texto comprimido de palabras exactas, frases, búsqueda aproximada, etc. de las técnicas anteriores.

Por otro lado, las técnicas de compresión de textos nacieron para la compresión del inglés y no se adaptan bien a las lenguas romances que presentan una distribución de las frecuencias de las palabras bastante diferente. Por ello, en este trabajo presentamos una técnica de preprocesado de los textos en lenguas romances para que la posterior compresión resulte más adaptada a sus características.