Codificación (s,c)-Densa: Optimizando la Compresión de Texto en Lenguaje Natural

Nieves R. Brisaboa, Antonio Fariña, Gonzalo Navarro, Eva Lorenzo Iglesias, José Paramá and María F. Esteller

Este trabajo presenta un nuevo método para la compresión de textos, que permite la búsqueda directa de palabras y frases dentro del texto sin necesidad de descomprimirlo.

Este método es directamente comparable, en tasa de compresión, con las técnicas basadas en Huffman orientadas a palabras y proporciona una compresión más simple y rápida, manteniendo sus características más destacables de cara a la realización de búsquedas directas de palabras sobre el texto comprimido, al generar códigos con "marca" y de prefijo libre. De este modo esta técnica es extremadamente adecuada para la compresión de textos sobre los que haya que realizar operaciones de Text Retrieval, pues facilita la indexación y preprocesado sin necesidad de descomprimirlos.

En el artículo se describe la Codificación (s,c)/Densa y se muestra el proceso de obtención de los parámetros s y c que maximizan la compresión de un corpus determinado. Este proceso se basa en analizar la distribución de frecuencias de las palabras para, de este modo, generar códigos que minimicen la redundancia del código generado. Además se muestran resultados empíricos que demuestran la efectividad de esta nueva técnica de compresión.