Académicos del DCC presentan investigación que analiza arquitectura de red neuronal "Transformer"

Image preview

El Profesor Jorge Pérez, explicando a representantes de Google Deepmind, el trabajo que analiza arquitectura de red neuronal "Transformer".


Compartir

 

En el trabajo de los profesores Jorge Pérez, Pablo Barceló y el estudiante Javier Marinkovic, se demuestra formalmente el poder computacional de dicha red.

 

"On the Turing Completeness of Modern Neural Network Architectures" se titula la investigación que el académico del DCC, Jorge Pérez presentó en la International Conference on Learning Representation (ICLR 2019), que se llevó a cabo en la ciudad de Nueva Orleans, Estados Unidos. Se trata de la conferencia internacional más importante en el área de Deep Learning.

 

Este trabajo fue realizado en conjunto entre Jorge Pérez, Pablo Barceló –ambos académicos DCC e investigadores del Instituto Milenio Fundamentos de los Datos— y el alumno de pregrado, Javier Marinkovic.

 

El Profesor Jorge Pérez explicó que las redes neuronales profundas se usan hoy para tomar decisiones en muchos rubros como clasificación de imágenes y texto, traducción automática y recomendaciones de contenido. Sin embargo, afirmó que el poder computacional de estas redes no es cien por ciento entendido desde un punto de vista teórico. “En nuestro paper analizamos el poder computacional de una de las arquitecturas de red neuronal profunda más populares en la actualidad, llamada Transformer. Esta arquitectura es la que usa Google, por ejemplo, para su sistema de traducción automática, pero ha sido usada para muchas otras tareas, incluso generar música” (una pieza de música creada por esta red la puedes encontrar acá).

 

En esta investigación, los académicos demostraron que el poder computacional del Transformer es tan alto como es posible para una máquina automática, noción que se conoce como Turing Completeness. “Esto quiere decir que la arquitectura usada por Google para traducir o generar música tiene el poder de implementar cualquier algoritmo posible. Hasta antes de nuestro resultado no se sabía con claridad cuál era el límite de poder de esta red neuronal. El artículo también muestra qué partes de la arquitectura de esta red neuronal la hacen tan poderosa y que si quitáramos ciertas partes efectivamente perdería poder”, concluyó Pérez.

 

Puedes encontrar un resumen del paper (en inglés) en https://arxiv.org/abs/1901.03429

 

--
Comunicaciones DCC