Código: C97E04 Título: Análisis de Información Científico y Técnica: El Proyecto ANISTEC
Francia: U. de Nancy 1, INRIA-LORIA, INIST-CNRS Chile: U. de Chile, U. de Concepción
Francia: Nombre: Xavier Polanco, Director de URI, INIST-CNRS Fono: (33) 03 83 50 46 00 Fax: (33) 03 83 50 46 50 Correo Electrónico: Polanco@inist.fr Chile: Nombre: Alejandro Bassi, Profesor Asistente, DCC Universidad de Chile Fono: 678 4365 Fax: 689 5531 Correo Electrónico: abassi@dcc.uchile.cl
Francia:
*: usaron fondos del proyectoJean Royaute (INIST-CNRS) Yannick Toussaint (INRIA-LORIA) * Xavier Polanco (INIST-CNRS) * Chile: John Atkinson (U. de Concepción) * Alejandro Bassi (U. de Chile) * Anita Ferreira (U. de Concepción) *
Anita Ferreira, John Atkinson & Alejandro Bassi
"Un método experimental para el preprocesamiento y etiquetado automático de textos electrónicos en lenguaje natural", VII Encuentro Chileno de Computación, Santiago, noviembre de 2000, actas en CD.
Otros resultados:
Alejandro Bassi
Algoritmo no supervisado de lematización (se adjunta nota técnica, más detalles en http://www.dcc.uchile.cl/~abassi/ecos/textos.tgz )
Artículo en VII Encuentro Chileno de Computación (mismo artículo citado previamente)
Se adjuntan temariosTesis de Magister:
Alfonso Pereda Gálvez
Entrenamiento no supervisado para el etiquetado automático de corpus en español
Memoria de Ingeniero Civil:
Cristián Villanueva Solís
Clasificación automática de correo electrónico
El ``análisis de la información'' forma parte del proceso de adquisición y apropiación de los conocimientos latentes acumulados en estas bases de datos. El análisis busca identificar la información ``útil'', es decir, aquella que interesa al usuario, a partir de una gran cantidad de datos.
El ``análisis de la información'' está relacionado con lo que se denomina actualmente knowledge discovery in databases (KDD) y data mining (DM). La hipótesis común es que los datos almacenados constituyen un yacimiento del cual hay que extraer y procesar la información para que ésta sea ``útil'' (desde un punto de vista económico, científico o tecnológico). El valor de la información ``bruta'' resulta de la capacidad que se tenga para procesarla y producir una información ``elaborada'', es decir, de nivel más elevado y potencialmente útil para la toma de decisiones en un determinado campo de actividades, pero que estaba implícita, no manifiesta, en los datos.
El objetivo inicialmente planteado en el proyecto consistía en realizar una plataforma de análisis de la información que funcione de acuerdo con procedimientos similares sobre textos en francés, inglés y español, y basada en:
Más generalmente, el propósito era establecer una plataforma común entre los centros de investigación involucrados para realizar estudios en el área de análisis de documentos. El rol definido para la parte chilena consistió en adaptar las herramientas de etiquetado automático (Brill), lematización y análisis sintáctico parcial (FASTER) para la lengua española. La contraparte francesa estaba encargada de transmitir su experiencia práctica con dichas herramientas en inglés y francés.Técnicas robustas de lingüística computacional, para procesar el lenguaje escrito de los documentos, Métodos infométricos, es decir de matemáticas aplicadas y estadísticas multidimensionales, para clasificar (clusters) y cartografiar (visualización) la información, Sistemas de representación de conocimientos (lógicas descriptivas, redes semánticas o grafos conceptuales).
Metodológicamente, el proyecto fue dividido en varias fases de acuerdo al tipo de tarea, recursos necesarios y herramientas utilizadas:
De estas primeras fases del estudio se pudo obtener varias conclusiones con respecto a las dificultades de adaptación de las herramientas a la lengua española. La calidad de los resultados obtenidos fue muy inferior comparado a las aplicaciones originales en inglés o francés. Siendo la gramatica del español bastante similar a la del francés, se deduce que la principal dificultad radica en la calidad de las fuentes de información utilizadas. El método de etiquetado automático utilizado requiere de un corpus de entrenamiento voluminoso que no estaba disponible en español. Además, para realizar una tarea de clasificación de documentos, es necesario contar con una base lo suficientemente homogénea, condición que no cumplian los resúmenes AGRIS/FAO. Como dificultad adicional, a partir del segundo año el equipo de trabajo en Chile se redujo a sólo un investigador (Alejandro Bassi).Obtención de CD-ROM de información técnica en la forma de resúmenes de la base de datos AGRIS/FAO (conicyt). Obtención y Filtrado del Thesaurus AGROVOC (INIST, Francia). Preprocesamiento y filtrado de información textual de AGRIS y AGROVOC (John Atkinson). Etiquetamiento de textos en Español: en esta fase se pueden distinguir diferentes tareas llevadas a cabo: Elección y Generación de Etiquetas en español: Anita Ferreira Etiquetamiento manual de textos en español: Anita Ferreira Construcción de diccionario de expresiones en español: Anita Ferreira. Incorporación de módulos de filtrado de expresiones en espanol: John Atkinson Entrenamiento del etiquetador usando el TAGGER de E. Brill: John Atkinson. Generación de textos etiquetados en forma automática: John Atkinson. Corrección de algunas reglas léxicas y contextuales: Anita Ferreira. Construcción modulo de corrección de etiquetas: John Atkinson.
A raiz de estas razones, y dado que las fases posteriores de estructuración terminológica se pueden conceptualizar de manera independiente del lenguaje, se decidió concentrar el esfuerzo de investigación en los aspectos netamente lingüísticos del problema. Después de realizar un análisis más profundo a la herramienta de etiquetado automático, se optó por innovar en lo referente a la lematización utilizando un esquema no supervisado. Esto implicó varias tareas adicionales:
Contrariamente a lo postulado en las herramientas inicialmente consideradas, la lematización no supervisada implementada en el proyecto tiene la ventaja de no requerir de un etiquetado previo del texto. Incluso más, el algoritmo de lematización puede ser de mucha ayuda para mejorar las predicciones de los etiquetadores automáticos porque considera un contexto paradigmático global además del contexto sintagmático local. Se espera con esta nueva manera de procesar los textos (lematizando antes de etiquetar) mejorar a futuro substancialmente la calidad del etiquetado automático.Obtención de un corpus no etiquetado de tamaño adecuado (se seleccionó un conjunto de noticias de185.000 palabras) Diseño e implementación de herramientas de reprocesamiento del corpus Diseño e implementación de un algoritmo de lematización no supervisado
Debido a la insuficiente calidad actual del etiquetado automático, no se pudo avanzar en la implementación de un proceso de análisis sintáctico parcial y, por ende, en el reconocimiento de ocurrencias de términos. Sin embargo, la técnica de lematización no supervisada se puede utilizar para normalizar ocurrencias de palabras aisladas o términos no disjuntos.
Más allá de los problemas encontrados
en el desarrollo de este proyecto, se puede concluir que la colaboración
lograda tuvo efectos importantes en la consolidación de un área
de investigación muy relevante que no estaba presente en el medio
local.