INFORME DE AVANCE
Proyecto ECOS/CONICYT C97E04:
``Análisis de Información Científico y Técnica:
El Proyecto ANISTEC''
Chile: CONICYT
Alejandro Bassi (U. de Chile)
John Atkinson (U. de Concepción)
Anita Ferreira (U. de Concepción)
-
Francia: ECOS
Jean-Marie Pierrel (U. de Nancy 1)
Yannick Toussaint (INRIA-LORIA)
Xavier Polanco (INIST-CNRS)
Jean Royauté (INIST-CNRS)
El acceso cada vez mas fácil a las fuentes electrónicas de almacenamiento
(bases de datos, CD-ROM, o INTERNET) ha originado la constitución de bases
de datos textuales de gran tamaño (artículos, patentes, informes, notas
técnicas y clínicas, etc). En el sector industrial, los proyectos
tecnológicos de envergadura generan el intercambio y
almacenamiento de grandes volúmenes de documentos.
Adquiere por lo tanto mucha relevancia el construir herramientas
computacionales que permitan aprovechar mejor estos recursos.
El ``análisis de la información'' forma parte del proceso de
adquisición y apropiación de los conocimientos latentes
acumulados en estas bases de datos. El análisis busca identificar la
información ``útil'', es decir, aquella
que interesa al usuario, a partir de una gran cantidad de datos.
El ``análisis de la información'' está relacionado con lo que se
denomina actualmente knowledge discovery in
databases (KDD) y data mining (DM).
La hipótesis común es que los datos almacenados constituyen
un yacimiento del cual hay que extraer y procesar la información para
que ésta sea ``útil'' (desde un punto de vista económico, científico o
tecnológico).
El valor de la información ``bruta'' resulta de la capacidad que se tenga
para procesarla y producir una información ``elaborada'', es decir, de nivel
más elevado y potencialmente útil para la toma de decisiones
en un determinado campo de actividades,
pero que estaba implícita, no manifiesta, en los datos.
El objetivo del proyecto ANISTEC es de realizar una plataforma de análisis
de la información que funcione de acuerdo con procedimientos similares
sobre textos en francés, inglés y español, y basada en:
El proyecto está basado en la asociación de métodos de infometría y
de lingüística computacional:
- Infometría: técnicas estadísticas, probabilistas, utilización de
redes neuronales (en clasificación y reducción dimensional),
para la categorización y cartografía de un conjunto de datos textuales.
- Lingüística Computacional: procesamiento de grandes cantidades de
datos textuales según métodos e instrumentos capaces de un procesamiento
parcial de enunciados en los campos de especialidad para:
- 1.
- etiquetaje de los textos,
- 2.
- análisis morfo-sintácticos y normalización (lematización),
- 3.
- extracción de términos,
- 4.
- análisis de la variación de los términos.
Las preguntas que se pretende responder recaen en lo siguiente:
- 1.
- ¿Cómo extraer el contenido informacional de un texto?
- 2.
- ¿Cómo categorizar los textos, los unos con relación a los otros?
- 3.
- ¿Cómo capitalizar el conocimiento contenido en los textos?
El proyecto se propone aportar una respuesta a estas interrogantes. Pensamos
que la asociación de técnicas de infometría y de métodos e instrumentos de
linguística computacional permiten la categorización y el procesamiento
morfológico, sintáctico y semántico parcial de grandes cantidades de datos
textuales.
El análisis de los textos está orientado a la adquisición de conocimientos, y
a la estructuración de los conocimientos adquiridos, recurriendo en la etapa
final a un sistema de representación de conocimientos, utilizando lógicas
descriptivas de tipo KL-ONE, tal como CLASSIC. El proyecto se propone:
- clasificar los predicados,
- ligarlos por medio de relaciones semánticas,
- realizar inferencias de generalización
El proyecto se ha dividido en varias fases de acuerdo al tipo
de tarea, recursos necesarios y herramientas utilizadas.
Para los dos primeros años se planteó:
- 1.
- la recolección de fuentes lingüísticas apropiadas (tesauro de términos,
bases de documentos, corpus etiquetados para el ``entrenamiento'' de las
herramientas),
- 2.
- la realización de un etiquetado morfológico automático,
- 3.
- la implementación de un proceso de lematización y
- 4.
- de análisis sintáctico parcial para
- 5.
- el reconocimiento de ocurrencias de términos en los documentos
analizados (ubicación de términos) de manera de
- 6.
- obtener una estructuración terminologica de dichos documentos.
El proyecto se apoya por una parte en instrumentos ya existentes
(etiquetador de Brill, FASTR), y por otra
en el desarrollo de una metodología y de instrumentos capaces de integrarse
a un sistema de análisis de documentos.
Los instrumentos existentes están siendo adaptados al procesamiento del
español, que se integra así al conjunto del sistema de procesamiento del francés
e inglés para la adquisición terminológica
(etiquetaje de textos y ubicación de términos), y la categorización infométrica (clasificación automática).
En particular, en el período 1998-1999 se ha avanzado en los
siguientes aspectos:
- Obtención de CD-ROM de información técnica en la forma de
resúmenes de la base de datos AGRIS/FAO (Conicyt).
- Obtención y filtrado del tesauro AGROVOC (INIST, Francia).
- Preprocesamiento y filtrado de información textual de AGRIS y
AGROVOC (John Atkinson).
- Etiquetamiento de textos en Español: en esta fase se pueden
distinguir diferentes tareas llevadas a cabo:
- Elección y generación de etiquetas en español: Anita Ferreira.
- Etiquetamiento manual de textos en español: Anita Ferreira.
- Construcción de diccionario de expresiones en español:
Anita Ferreira.
- Incorporación de módulos de filtrado de expresiones en
espanol: John Atkinson.
- Entrenamiento del etiquetador automático de E. Brill:
John Atkinson.
- Generación de textos etiquetados en forma automática:
John Atkinson.
- Corrección de algunas reglas léxicas y contextuales: Anita
Ferreira.
- Construcción módulo de corrección de etiquetas: John Atkinson.
- Construcción de herramientas para el análisis estadístico y
correción de corpus: Alejandro Bassi.
- Prototipo del proceso de lematización: Alejandro Bassi.
Gracias a la similitud gramatical entre el francés y el español,
la metodología de ``entrenamiento'' del etiquetador en francés puede
reutilizarse para el español. Algunas diferencias gramaticales notables, como
la existencia de pronombres enclíticos en español, tienen una baja frecuencia
en los textos estudiados, otras diferencias hacen que el contexto sea
más ambigüo en el español (p. ej. la no utilización de la preposición
en antes del gerundio o la elipsis de pronombres). Para la lematización,
la principal diferencia es que hay una mayor variabilidad de las raíces de
las palabras debido al acento ortográfico (p. ej. camión/camiones).
Para simplificar el proceso, es conveniente transformar a una
notación fonética.
Sin embargo,
tanto el proceso de lematización como las fases posteriores de ubicación
de términos y estructuración temática se han retardado con respecto
a lo planificado. Esto se debe principalmente a dos factores:
- 1.
- Insuficiente calidad de los resultados del etiquetador automático
(entre 80 y 90 porciento de etiquetas correctas) producto
de no contar con suficientes textos ya etiquetados para la fase de
entrenamiento de la herramienta. Además, la base de documentos utilizada
es muy heterogénea y presenta algunas falencias lingüísticas que
le quitan generalidad (p. ej. falta de acentos).
- 2.
- Cambio de versión en la herramienta FASTR, lo que hace aconsejable
postergar su uso.
Para subsanar estos problemas, se propone complementar las bases de documentos
existentes haciendo una recopilación de textos disponibles en la Web (ya
hay avances en este sentido habiéndose recopilado noticias de ``El Mercurio'')
y adquiriendo la base de textos de los códigos legales chilenos (actualmente
en proceso). A pesar de que los textos legales no pertenecen al ámbito
científico, si son textos técnicos que presentan similitudes en cuanto
al uso de términos específicos normados. La necesidad de textos de mejor
calidad puede parecer contradictoria con la idea de análisis robusto,
sin embargo, hay que distinguir la fase de entrenamiento de las herramientas de
su uso. Un entrenamiento con textos de menor calidad puede introducir sesgos
en los resultados del procesamiento.
En compensación a los contratiempos detectados, se ha avanzado en paralelo en
otros aspectos del proyecto:
-
Se ha explorado la posibilidad de utilizar un comité de etiquetadores
automáticos para reducir el sesgo y la indeterminación de un sistema
aislado (el la literatura, ensemble, stacked o combined
classifiers).
Esto puede hacerse utilizando un mismo etiquetador con diferentes
entrenamientos, y también utilizando distintos etiquetadores, lo que
permitiría además reducir los errores sistemáticos de cada método.
-
Otra posibilidad con respecto al etiquetado y lematización es aprovechar
mejor el contexto global de las palabras, identificando raíces asociadas
a paradigmas de conjugación o derivación presentes en el conjunto de
documentos analizados.
-
Se ha explorado la posibilidad de aumentar la cantidad de información
disponible en una cartografía bidimensional proyectando más de dos
dimensiones en forma simultánea.
-
Se ha propuesto un modelo semántico que puede permitir asociar mecanismos
de procesamiento masivo basado en técnicas numéricas, como latent semantic indexing (LSI), con el tipo de procesamiento simbólico
propuesto para la fase final del proyecto.
Varias de las ideas propuestas son lo suficientemente originales
para generar publicaciones conjuntas asociadas al proyecto.
Las visitas en el marco de la cooperación realizadas hasta la fecha
son las siguientes:
- 29 de Marzo al 19 de Abril de 1998: Estadía (misión) de los profesores
John Atkinson y Anita Ferreira (U. de Concepción) en el INRIA-LORIA e INIST de Nancy, Francia.
- 18 al 31 de Mayo de 1998: Estadía del profesor Dr. Alejandro Bassi
(U. de Chile) en el INRIA-LORIA e INIST.
- 16 de Junio al 4 de Julio de 1998: Estadía del señor Xavier Polanco
(INIST, Nancy) en las Universidad de Concepción y de Chile.
- 4 al 25 de Noviembre de 1998: Estadía del Dr. Yannick Toussaint
(INRIA-LORIA) en las Universidades de Concepción y de Chile.
- Sr. Xavier Polanco (INIST-CNRS) visita Chile entre el 1
y el 22 de Mayo.
- Dra. Anita Ferreira y Sr. John Atkinson (U. Concepción) visitan
Francia entre el 5 y 25 de Junio.
- Dr. Alejandro Bassi (U. de Chile) visita Francia entre el 5 y
el 21 de Septiembre.
Como actividades complementarias inmersas en el proyecto de
cooperación o en el marco de las visitas de investigación realizadas
por la contraparte francesa, hasta la fecha se han realizado las siguientes:
- Conferencias del Sr. Xavier Polanco (INIST, Nancy) sobre el proyecto
y los avances de este, una titulada: El Enfoque ILC para el Análisis
Automático de Información, y la otra: Lingüística Computacional:
Aplicaciones y Proyecciones, Julio de 1998, U. de Concepción.
- Conferencia de difusión del Dr. Yannick Toussaint (INRIA-LORIA, Nancy)
sobre el tema: Análisis de Lenguaje Natural para el Procesamiento
de Textos Científicos y Técnicos, Noviembre de 1998, U. de Concepción.
- Conferencia Sr. John Atkinson titulada: Automatic
Analysis of Scientific and Technical Information, como invitado en
el marco del Taller de Computación e Informática en torno al convenio
CONICYT y BMBF (Alemania), Pontificia Universidad Católica de Chile,
Agosto de 1998.
- Dirección del prof. John Atkinson, de un trabajo de tesis sobre el
tema Diseño e Implementación de un Sistema de Extracción de
Información desde Textos Electrónicos (trabajo en progreso), Departamento
de Ingeniería Informática, U. de Concepción.
- Dirección del prof. John Atkinson, de un trabajo de tesis sobre el
tema Diseño, Implementación y Evaluación de un prototipo
de POS Tagger para Aprendizaje Estadístico de Lenguaje Natural
(trabajo en progreso), Departamento de Ingeniería
Informática, U. de Concepción.
- Conferencia del prof. Alejandro Bassi titulada: An Associative Semantic Model for Text Processing, presentada en
el congreso SPIRE'99, Cancún, septiembre 1999.
- Dirección del prof. Alejandro Bassi, de un trabajo de memoria de
ingeniero sobre el tema Aplicación de la minería de datos en una
base de datos textuales (trabajo por ser entregado en junio del 2000),
Departamento de Ciencias de la Computación, Universidad de Chile.
- Dirección del prof. Alejandro Bassi, de una tesis de magister
sobre el tema Estudio comparativo de lematizadores en el análisis
de bases de documentos textuales (el tema se presentará a aprobación
en marzo del 2000),
Departamento de Ciencias de la Computación, Universidad de Chile.
INFORME DE AVANCE
Proyecto ECOS/CONICYT C97E04:
``Análisis de Información Científico y Técnica:
El Proyecto ANISTEC''
This document was generated using the
LaTeX2HTML translator Version 98.1p1 release (March 2nd, 1998)
Copyright © 1993, 1994, 1995, 1996, 1997,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
The command line arguments were:
latex2html -split 0 avance99.tex.
The translation was initiated by Alejandro Bassi on 1999-12-23
Alejandro Bassi
1999-12-23