Explicador en lenguaje claro
La atención, explicada
¿Qué hace el mecanismo de atención en un transformer?
La atención permite que cada palabra mire a las demás palabras de la frase y decida cuáles importan para ella en ese momento. En 'el trofeo no cabía en la maleta porque era demasiado grande', la atención es lo que le dice al modelo que 'era' se refiere al trofeo. Cada posición reúne una mezcla ponderada de las otras, apoyándose más en las que encajan. Así maneja el modelo los pronombres, las referencias a distancia y la forma en que el significado de una palabra cambia con su contexto.
No te quedes en leerlo. Opera tú mismo el mecanismo en una lección interactiva corta.
Míralo funcionar: Cómo la atención mezcla el significado →Gratis, sin código, sin registro.
Lo que la gente entiende mal
- La atención lee estrictamente de izquierda a derecha. Puede ponderar todas las palabras anteriores a la vez, no solo la previa.
- Es coincidencia de palabras clave. Es una mezcla ponderada y aprendida de significado, no una búsqueda de palabras exactas.
- Más cabezas de atención siempre es mejor. Las cabezas se especializan, y pasado un punto el beneficio decae.
Dónde lo ves en productos reales
- Todo modelo moderno de chat y de código se construye sobre capas de atención apiladas.
- Entender documentos largos depende de que la atención conecte partes lejanas.
- La calidad con pronombres, referencias de código y citas viene de que la atención funcione bien.
Explicadores relacionados
Parte de See How AI Works, un curso interactivo gratuito, donde aprendes cómo funciona la IA moderna operándola, no viendo videos.