MecanismosAtencion

Introducción a los Mecanismos de Atención en Transformadores

Sobre el proyecto

El proyecto tiene como objetivo estudiar los sesgos inductivos, particularmente los sesgos inductivos relacionales en las capas de atención. El presente repositorio contiene material elaborado bajo el proyecto TA100924 que introduce las nociones básicas de las capas de atención, sus distintos tipos, su implementación con PyTorch, y la implementación de una arquitectura de transformers.

Resumen

Las capas de atención son actualmente mecanismo centrales en los modelos del lenguaje. Los Transformers, que representan el estado del arte en este campo, se basan en el uso de capas de atención en combinación con otras estrategias. La atención también se ha utilizado en modelos basados en redes recurrentes de tipo sequence-to-sequence, brindando mejoras significativas en tareas de procesamiento de lenguaje natural como traducción automática y generación de texto. Entender cómo funcionan estos mecanismos es esencial para comprender los modelos del lenguaje actuales.

Este repositorio se propone presentar un primer acercamiento a los mecanismos de atención que se utilizan en las redes neuronales. En primer lugar, se presentarán los conceptos teóricos básicos para comprender la atención y su funcionamiento, se revisarán otros mecanismos de atención, principalmente la atención dispersa (sparse attention), y se verán la relación de la atención con los modelos del lenguaje auto-codificados y auto-regresivos. Finalmente, se planteará su relación con otros mecanismos como las capas convolucionales y las capas gráficas, resaltando sus ventajas y desventajas.

En segundo lugar, se abarcará los principios técnicos para la implementación de los mecanismos de atención en Pytorch y su incorporación dentro de la arquitectura de Transformers.

Temario

  1. Introducción
    1. Atención en redes recurrentes
  2. Auto-atención en Transformadores
    1. Auto-atención
    2. Auto-atención y estructuras gráficas
  3. Otras capas dentro de los Transformadores
    1. Embeddings y codificación posicional
    2. Suma y normalización
  4. Multi-cabeza y atención enmascarada
    1. Cabezas de atención
    2. Auto-atención enmascarada
    3. Atención dispersa
  5. Construcción del transformador
    1. Sobre el gradiente en capas de atención
    2. Optimizador Noam
    3. Transformador

Notebooks

Los notebooks utilizados pueden encontrarse aquí.

La presentación de la escuela de verano 2024 puede encontrarse aquí.

Referencias

Otros recursos


Material desarrollado con apoyo del proyecto PAPIIT TA100924