INFORME FINAL


Proyecto ECOS/CONICYT C97E04:


``Análisis de Información Científico y Técnica:
El Proyecto ANISTEC"

 

 
 






























I. Descripción del proyecto


1. Identificación

  • Código:    C97E04
  • Título:    Análisis de Información Científico y Técnica: El Proyecto ANISTEC

  • 2. Instituciones participantes

  • Francia:    U. de Nancy 1, INRIA-LORIA, INIST-CNRS
  • Chile:    U. de Chile, U. de Concepción

  • 3. Investigadores responsables del proyecto

  • Francia:
  • Nombre:    Xavier Polanco, Director de URI, INIST-CNRS
  • Fono:    (33) 03 83 50 46 00
  • Fax:    (33) 03 83 50 46 50
  • Correo Electrónico:    Polanco@inist.fr
  • Chile:
  • Nombre:    Alejandro Bassi, Profesor Asistente, DCC Universidad de Chile
  • Fono:    678 4365
  • Fax:    689 5531
  • Correo Electrónico:    abassi@dcc.uchile.cl

  • 4. Investigadores participantes en el proyecto

  • Francia:
  • Jean Royaute (INIST-CNRS)
  • Yannick Toussaint (INRIA-LORIA) *
  • Xavier Polanco (INIST-CNRS) *
  • Chile:
  • John Atkinson (U. de Concepción) *
  • Alejandro Bassi (U. de Chile) *
  • Anita Ferreira (U. de Concepción) *
  • *: usaron fondos del proyecto



    II. Resultados del proyecto


    1. Publicaciones

    Artículos publicados en proceedings de congresos:
  • Anita Ferreira, John Atkinson & Alejandro Bassi

  • "Un método experimental para el preprocesamiento y etiquetado automático de textos electrónicos en lenguaje natural", VII Encuentro Chileno de Computación, Santiago, noviembre de 2000, actas en CD.


    Otros resultados:

  • Alejandro Bassi

  • Algoritmo no supervisado de lematización (se adjunta nota técnica, más detalles en http://www.dcc.uchile.cl/~abassi/ecos/textos.tgz )


    2. Participación en seminarios y congresos

    Presentación en congreso nacional:
  • Artículo en VII Encuentro Chileno de Computación (mismo artículo citado previamente)

  • 3. Dirección de tesis

    Actualmente en curso:
  • Tesis de Magister:

  • Alfonso Pereda Gálvez
    Entrenamiento no supervisado para el etiquetado automático de corpus en español
     
  • Memoria de Ingeniero Civil:

  • Cristián Villanueva Solís
    Clasificación automática de correo electrónico
    Se adjuntan temarios


    4. Otros resultados


    5. Planteamiento científico

    El contexto tecnológico que motivó el proyecto es la gran expansión que ha caracterizado la evolución reciente de los repositorios electrónicos de información. El acceso cada vez mas fácil a las fuentes electrónicas de almacenamiento (bases de datos, CD-ROM, o INTERNET) ha originado la constitución de bases de datos textuales de gran tamaño (artículos, patentes, informes, notas técnicas y clínicas, etc). En el sector industrial, los proyectos tecnológicos de envergadura generan el intercambio y almacenamiento de grandes volúmenes de documentos. Adquiere por lo tanto mucha relevancia el construir herramientas computacionales que permitan aprovechar mejor estos recursos.

    El ``análisis de la información'' forma parte del proceso de adquisición y apropiación de los conocimientos latentes acumulados en estas bases de datos. El análisis busca identificar la información ``útil'', es decir, aquella que interesa al usuario, a partir de una gran cantidad de datos.

    El ``análisis de la información'' está relacionado con lo que se denomina actualmente knowledge discovery in databases (KDD) y data mining (DM). La hipótesis común es que los datos almacenados constituyen un yacimiento del cual hay que extraer y procesar la información para que ésta sea ``útil'' (desde un punto de vista económico, científico o tecnológico). El valor de la información ``bruta'' resulta de la capacidad que se tenga para procesarla y producir una información ``elaborada'', es decir, de nivel más elevado y potencialmente útil para la toma de decisiones en un determinado campo de actividades, pero que estaba implícita, no manifiesta, en los datos.

    El objetivo inicialmente planteado en el proyecto consistía en realizar una plataforma de análisis de la información que funcione de acuerdo con procedimientos similares sobre textos en francés, inglés y español, y basada en:

  • Técnicas robustas de lingüística computacional, para procesar el lenguaje escrito de los documentos,
  • Métodos infométricos, es decir de matemáticas aplicadas y estadísticas multidimensionales, para clasificar (clusters) y cartografiar (visualización) la información,
  • Sistemas de representación de conocimientos (lógicas descriptivas, redes semánticas o grafos conceptuales).
  • Más generalmente, el propósito era establecer una plataforma común entre los centros de investigación involucrados para realizar estudios en el área de análisis de documentos. El rol definido para la parte chilena consistió en adaptar las herramientas de etiquetado automático (Brill), lematización y análisis sintáctico parcial (FASTER) para la lengua española. La contraparte francesa estaba encargada de transmitir su experiencia práctica con dichas herramientas en inglés y francés.

    Metodológicamente, el proyecto fue dividido en varias fases de acuerdo al tipo de tarea, recursos necesarios y herramientas utilizadas:

    1. recolección de fuentes lingüísticas apropiadas (tesauro de términos, bases de documentos, corpus etiquetados para el ``entrenamiento'' de las herramientas)
    2. realización de un etiquetado morfológico automático
    3. implementación de un proceso de lematización
    4. implementación de un proceso análisis sintáctico parcial
    5. reconocimiento de ocurrencias de términos en los documentos analizados (ubicación de términos)
    6. obtención de una estructuración terminologica de los documentos analizados
    En el primer año de ejecución se avanzó en los siguientes puntos:
  • Obtención de CD-ROM de información técnica en la forma de resúmenes de la base de datos AGRIS/FAO (conicyt).
  • Obtención y Filtrado del Thesaurus AGROVOC (INIST, Francia).
  • Preprocesamiento y filtrado de información textual de AGRIS y AGROVOC (John Atkinson).
  • Etiquetamiento de textos en Español: en esta fase se pueden distinguir diferentes tareas llevadas a cabo:
  • Elección y Generación de Etiquetas en español: Anita Ferreira
  • Etiquetamiento manual de textos en español: Anita Ferreira
  • Construcción de diccionario de expresiones en español: Anita Ferreira.
  • Incorporación de módulos de filtrado de expresiones en espanol: John Atkinson
  • Entrenamiento del etiquetador usando el TAGGER de E. Brill: John Atkinson.
  • Generación de textos etiquetados en forma automática: John Atkinson.
  • Corrección de algunas reglas léxicas y contextuales: Anita Ferreira.
  • Construcción modulo de corrección de etiquetas: John Atkinson.
  • De estas primeras fases del estudio se pudo obtener varias conclusiones con respecto a las dificultades de adaptación de las herramientas a la lengua española. La calidad de los resultados obtenidos fue muy inferior comparado a las aplicaciones originales en inglés o francés. Siendo la gramatica del español bastante similar a la del francés, se deduce que la principal dificultad radica en la calidad de las fuentes de información utilizadas. El método de etiquetado automático utilizado requiere de un corpus de entrenamiento voluminoso que no estaba disponible en español. Además, para realizar una tarea de clasificación de documentos, es necesario contar con una base lo suficientemente homogénea, condición que no cumplian los resúmenes AGRIS/FAO. Como dificultad adicional, a partir del segundo año el equipo de trabajo en Chile se redujo a sólo un investigador (Alejandro Bassi).

    A raiz de estas razones, y  dado que las fases posteriores de estructuración terminológica se pueden conceptualizar de manera independiente del lenguaje, se decidió concentrar el esfuerzo de investigación en los aspectos netamente lingüísticos del problema. Después de realizar un análisis más profundo a la herramienta de etiquetado automático, se optó por innovar en lo referente a la lematización utilizando un esquema no supervisado. Esto implicó varias tareas adicionales:

  • Obtención de un corpus no etiquetado de tamaño adecuado (se seleccionó un conjunto de noticias de185.000 palabras)
  • Diseño e implementación de herramientas de reprocesamiento del corpus
  • Diseño e implementación de un algoritmo de lematización no supervisado
  • Contrariamente a lo postulado en las herramientas inicialmente consideradas, la lematización no supervisada implementada en el proyecto tiene la ventaja de no requerir de un etiquetado previo del texto. Incluso más, el algoritmo de lematización puede ser de mucha ayuda para mejorar las predicciones de los etiquetadores automáticos porque considera un contexto paradigmático global además del contexto sintagmático local. Se espera con esta nueva manera de procesar los textos (lematizando antes de etiquetar) mejorar a futuro substancialmente la calidad del etiquetado automático.

    Debido a la insuficiente calidad actual del etiquetado automático, no se pudo avanzar en la implementación de un proceso de análisis sintáctico parcial y, por ende, en el reconocimiento de ocurrencias de términos. Sin embargo, la técnica de lematización no supervisada se puede utilizar para normalizar ocurrencias de palabras aisladas o términos no disjuntos.

    Más allá de los problemas encontrados en el desarrollo de este proyecto, se puede concluir que la colaboración lograda tuvo efectos importantes en la consolidación de un área de investigación muy relevante que no estaba presente en el medio local.