Alejandro Bassi A.
Departamento de Ciencias de la Computación
Universidad de Chile
Av. Blanco Encalada 2120, Santiago, Chile
La importancia de la lematización radica en el hecho que, para acceso por contenido a bases de datos textuales, permite superar las limitaciones de una búsqueda simple de strings, haciendo que relaciones ocultas por la variabilidad morfológica de las palabras queden manifiestas. La lematización mejora por lo tanto el recubrimiento (recall) aunque pueda ser a expensas de la precisión cuando diferentes conjugaciones morfológicas de una misma raiz están asociadas a conceptos distintos.
La lematización está muy relacionada con el etiquetado automático de textos (POS tagging), que consiste en atribuir a cada palabra su categoría gramatical, ya que la categoría puede determinarse por las flexiones o derivaciones (ej: en castellano -ar indica un infinitivo, -ado un participio pasado masculino singular, etc.). Muchos esquemas de procesamiento de textos, aplicados a lenguas flexivas europeas, plantean un etiquetado automático previo a la lematización, de manera que al lematizar se cuente con la información de la categoría gramatical de las palabras. Sin embargo, la atribución de etiquetas correctas depende en general de una lematización implícita basada en un análisis de sufijos y prefijos, lo que permite una primera predicción que se corrige, en una segunda etapa, en función del contexto immediato de la palabra analizada (Brill). Esta manera de proceder presenta algunos problemas: (i) requiere de un corpus manualmente etiquetado de gran dimensión para derivar reglas de etiquetado automático adecuadas, (ii) no aprovecha la existencia de paradigmas de conjugación o derivación, (iii) sólo considera raíces libres.
En el presente trabajo, se propone un sistema de lematización automático que permite resolver estos problemas y puede utilizarse como una primera fase para apoyar el etiquetado automático. El sistema utiliza un mecanismo no supervisado para determinar los paradigmas morfológicos más relevantes analizando el léxico del corpus procesado.
Con este modelo lingüístico elemental, el único criterio de validación es la productividad de las raíces y sufijos propuestos, es decir, la cantidad de palabras en las cuales aparecen. Mientras más productividad, mejor. Se debe encontrar por lo tanto el conjunto de raíces y sufijos mínimo que permita generar las palabras del texto. Para este propósito no se consideran las repeticiones de palabras, ya que sólo interesa su forma y no su ubicación. El análisis se limita de esta manera al léxico del corpus procesado, privilegiando el eje paradigamático frente al eje sintagmático. Si bien es cierto que en presencia de ambigüedad el entorno sintagmático puede aportar elementos de decisión importantes, estos casos son muy poco frecuentes como para alterar significativamente los resultados buscados.
En resumen, el problema se puede plantear de la siguiente manera: dado un léxico conocido L, encontrar un conjunto de raíces R y un conjunto de sufijos S de mínima cardinalidad tal que L esté incluido en la concatenación de R y S.
Básicamente el mecanismo no supervisado consiste en:
En una segunda etapa, a cada terminación de cada grupo interesante identificado se le puede asociar una categoría gramatical (ej ar => verbo infinitivo, ado => participio pasado masculino singular, etc.) para realizar la asignación inicial de un etiquetado automático.construir una red asociativa (grafo dirigido) entre terminaciones basada en la coocurrencia de raices. aplicar heurísticas de clustering sobre la red asociativa de terminaciones (la fuerza asociativa entre dos terminaciones depende de la cantidad de raíces que comparten ambas terminaciones). se obtienen grupos de terminaciones fuertemente conexos que corresponden a paradigmas de conjugación o derivación. las palabras se lematizan ubicando cuál es el grupo más probable según un criterio de maximización de terminaciones posibles en el grupo para la raiz considerada (en este caso el lema es la raiz).