next up previous


INFORME DE AVANCE
Proyecto ECOS/CONICYT C97E04:
``Análisis de Información Científico y Técnica:
El Proyecto ANISTEC''

Chile: CONICYT
Alejandro Bassi (U. de Chile)
John Atkinson (U. de Concepción)
Anita Ferreira (U. de Concepción) -
Francia: ECOS
Jean-Marie Pierrel (U. de Nancy 1)
Yannick Toussaint (INRIA-LORIA)
Xavier Polanco (INIST-CNRS)
Jean Royauté (INIST-CNRS)

Introducción

El acceso cada vez mas fácil a las fuentes electrónicas de almacenamiento (bases de datos, CD-ROM, o INTERNET) ha originado la constitución de bases de datos textuales de gran tamaño (artículos, patentes, informes, notas técnicas y clínicas, etc). En el sector industrial, los proyectos tecnológicos de envergadura generan el intercambio y almacenamiento de grandes volúmenes de documentos. Adquiere por lo tanto mucha relevancia el construir herramientas computacionales que permitan aprovechar mejor estos recursos.

El ``análisis de la información'' forma parte del proceso de adquisición y apropiación de los conocimientos latentes acumulados en estas bases de datos. El análisis busca identificar la información ``útil'', es decir, aquella que interesa al usuario, a partir de una gran cantidad de datos.

El ``análisis de la información'' está relacionado con lo que se denomina actualmente knowledge discovery in databases (KDD) y data mining (DM). La hipótesis común es que los datos almacenados constituyen un yacimiento del cual hay que extraer y procesar la información para que ésta sea ``útil'' (desde un punto de vista económico, científico o tecnológico). El valor de la información ``bruta'' resulta de la capacidad que se tenga para procesarla y producir una información ``elaborada'', es decir, de nivel más elevado y potencialmente útil para la toma de decisiones en un determinado campo de actividades, pero que estaba implícita, no manifiesta, en los datos.

Objetivo del Proyecto

El objetivo del proyecto ANISTEC es de realizar una plataforma de análisis de la información que funcione de acuerdo con procedimientos similares sobre textos en francés, inglés y español, y basada en:

Problemática

El proyecto está basado en la asociación de métodos de infometría y de lingüística computacional:

Las preguntas que se pretende responder recaen en lo siguiente:

1.
¿Cómo extraer el contenido informacional de un texto?
2.
¿Cómo categorizar los textos, los unos con relación a los otros?
3.
¿Cómo capitalizar el conocimiento contenido en los textos?

El proyecto se propone aportar una respuesta a estas interrogantes. Pensamos que la asociación de técnicas de infometría y de métodos e instrumentos de linguística computacional permiten la categorización y el procesamiento morfológico, sintáctico y semántico parcial de grandes cantidades de datos textuales.

El análisis de los textos está orientado a la adquisición de conocimientos, y a la estructuración de los conocimientos adquiridos, recurriendo en la etapa final a un sistema de representación de conocimientos, utilizando lógicas descriptivas de tipo KL-ONE, tal como CLASSIC. El proyecto se propone:

Esquema Actual del Proyecto

El proyecto se ha dividido en varias fases de acuerdo al tipo de tarea, recursos necesarios y herramientas utilizadas. Para los dos primeros años se planteó:

1.
la recolección de fuentes lingüísticas apropiadas (tesauro de términos, bases de documentos, corpus etiquetados para el ``entrenamiento'' de las herramientas),
2.
la realización de un etiquetado morfológico automático,
3.
la implementación de un proceso de lematización y
4.
de análisis sintáctico parcial para
5.
el reconocimiento de ocurrencias de términos en los documentos analizados (ubicación de términos) de manera de
6.
obtener una estructuración terminologica de dichos documentos.

Estado de Avance

El proyecto se apoya por una parte en instrumentos ya existentes (etiquetador de Brill, FASTR), y por otra en el desarrollo de una metodología y de instrumentos capaces de integrarse a un sistema de análisis de documentos.

Los instrumentos existentes están siendo adaptados al procesamiento del español, que se integra así al conjunto del sistema de procesamiento del francés e inglés para la adquisición terminológica (etiquetaje de textos y ubicación de términos), y la categorización infométrica (clasificación automática).

En particular, en el período 1998-1999 se ha avanzado en los siguientes aspectos:

Gracias a la similitud gramatical entre el francés y el español, la metodología de ``entrenamiento'' del etiquetador en francés puede reutilizarse para el español. Algunas diferencias gramaticales notables, como la existencia de pronombres enclíticos en español, tienen una baja frecuencia en los textos estudiados, otras diferencias hacen que el contexto sea más ambigüo en el español (p. ej. la no utilización de la preposición en antes del gerundio o la elipsis de pronombres). Para la lematización, la principal diferencia es que hay una mayor variabilidad de las raíces de las palabras debido al acento ortográfico (p. ej. camión/camiones). Para simplificar el proceso, es conveniente transformar a una notación fonética.

Sin embargo, tanto el proceso de lematización como las fases posteriores de ubicación de términos y estructuración temática se han retardado con respecto a lo planificado. Esto se debe principalmente a dos factores:

1.
Insuficiente calidad de los resultados del etiquetador automático (entre 80 y 90 porciento de etiquetas correctas) producto de no contar con suficientes textos ya etiquetados para la fase de entrenamiento de la herramienta. Además, la base de documentos utilizada es muy heterogénea y presenta algunas falencias lingüísticas que le quitan generalidad (p. ej. falta de acentos).
2.
Cambio de versión en la herramienta FASTR, lo que hace aconsejable postergar su uso.

Para subsanar estos problemas, se propone complementar las bases de documentos existentes haciendo una recopilación de textos disponibles en la Web (ya hay avances en este sentido habiéndose recopilado noticias de ``El Mercurio'') y adquiriendo la base de textos de los códigos legales chilenos (actualmente en proceso). A pesar de que los textos legales no pertenecen al ámbito científico, si son textos técnicos que presentan similitudes en cuanto al uso de términos específicos normados. La necesidad de textos de mejor calidad puede parecer contradictoria con la idea de análisis robusto, sin embargo, hay que distinguir la fase de entrenamiento de las herramientas de su uso. Un entrenamiento con textos de menor calidad puede introducir sesgos en los resultados del procesamiento.

En compensación a los contratiempos detectados, se ha avanzado en paralelo en otros aspectos del proyecto:

Varias de las ideas propuestas son lo suficientemente originales para generar publicaciones conjuntas asociadas al proyecto.

Estadías de Investigación Realizadas

Las visitas en el marco de la cooperación realizadas hasta la fecha son las siguientes:

Otras actividades

Como actividades complementarias inmersas en el proyecto de cooperación o en el marco de las visitas de investigación realizadas por la contraparte francesa, hasta la fecha se han realizado las siguientes:

About this document ...

INFORME DE AVANCE
Proyecto ECOS/CONICYT C97E04:
``Análisis de Información Científico y Técnica:
El Proyecto ANISTEC''

This document was generated using the LaTeX2HTML translator Version 98.1p1 release (March 2nd, 1998)

Copyright © 1993, 1994, 1995, 1996, 1997, Nikos Drakos, Computer Based Learning Unit, University of Leeds.

The command line arguments were:
latex2html -split 0 avance99.tex.

The translation was initiated by Alejandro Bassi on 1999-12-23


next up previous
Alejandro Bassi
1999-12-23