Aprende cómo Noam Shazeer contribuyó a la arquitectura Transformer: autoatención, atención multi-cabeza y por qué este diseño es la columna vertebral de los LLMs modernos.

Un Transformer es una forma de ayudar a las máquinas a entender secuencias —cosas donde el orden y el contexto importan, como oraciones, código o una serie de búsquedas. En lugar de leer un token a la vez y depender de una memoria frágil, los Transformers miran toda la secuencia y deciden a qué prestar atención al interpretar cada parte.
Ese cambio sencillo resultó ser muy importante. Es una razón clave por la que los modelos de lenguaje grandes (LLMs) modernos pueden mantener contexto, seguir instrucciones, escribir párrafos coherentes y generar código que referencia funciones y variables anteriores.
Si has usado un chatbot, una función de “resumir esto”, búsqueda semántica o un asistente de código, has interactuado con sistemas basados en Transformer. El mismo esquema central soporta:
Desglosaremos las partes clave—autoatención, atención multi-cabeza, codificación posicional y el bloque Transformer básico—y explicaremos por qué este diseño escala tan bien cuando los modelos crecen.
También tocaremos variantes modernas que mantienen la idea central pero la ajustan para velocidad, coste o ventanas de contexto más largas.
Esta es una guía de alto nivel con explicaciones en lenguaje llano y matemáticas mínimas. El objetivo es construir intuición: qué hacen las piezas, por qué funcionan juntas y cómo eso se traduce en capacidades reales de producto.
Noam Shazeer es un investigador e ingeniero de IA conocido por ser uno de los coautores del artículo de 2017 “Attention Is All You Need.” Ese trabajo introdujo la arquitectura Transformer, que más tarde se convirtió en la base de muchos modelos de lenguaje grandes (LLMs). El trabajo de Shazeer forma parte de un esfuerzo de equipo: el Transformer fue creado por un grupo de investigadores en Google, y es importante reconocerlo así.
Antes del Transformer, muchos sistemas de PLN dependían de modelos recurrentes que procesaban texto paso a paso. La propuesta del Transformer mostró que se podían modelar secuencias efectivamente sin recurrencia usando la atención como mecanismo principal para combinar información a lo largo de una oración.
Ese cambio importó porque facilitó paralelizar el entrenamiento (puedes procesar muchos tokens a la vez) y abrió la puerta a escalar modelos y conjuntos de datos de una forma que rápidamente se volvió práctica para productos reales.
La contribución de Shazeer—junto con la de los otros autores—no quedó confinada a benchmarks académicos. El Transformer se volvió un módulo reutilizable que los equipos pudieron adaptar: intercambiar componentes, cambiar el tamaño, ajustarlo para tareas y, más tarde, preentrenarlo a escala.
Así es como viajan muchas innovaciones: un artículo introduce una receta limpia y general; los ingenieros la refinan; las empresas la operacionalizan; y eventualmente se convierte en la elección por defecto para construir funciones de lenguaje.
Es correcto decir que Shazeer fue un colaborador clave y coautor del artículo del Transformer. No es correcto presentarlo como el único inventor. El impacto viene del diseño colectivo—y de las muchas mejoras posteriores que la comunidad construyó sobre ese plano original.
Antes de los Transformers, muchos problemas de secuencia (traducción, habla, generación de texto) estaban dominados por Redes Neuronales Recurrentes (RNNs) y luego LSTMs (Long Short-Term Memory). La idea era simple: leer texto un token a la vez, mantener una “memoria” (estado oculto) y usar ese estado para predecir lo que sigue.
Una RNN procesa una oración como una cadena. Cada paso actualiza el estado oculto según la palabra actual y el estado anterior. Las LSTMs mejoraron esto añadiendo puertas que deciden qué mantener, olvidar o sacar —facilitando retener señales útiles por más tiempo.
En la práctica, la memoria secuencial tiene un cuello de botella: mucha información debe comprimirse en un único estado conforme la oración se alarga. Incluso con LSTMs, las señales de palabras muy anteriores pueden desvanecerse o ser sobrescritas.
Esto hacía difícil aprender relaciones como enlazar un pronombre con el sustantivo correcto muchas palabras atrás o mantener el tema a lo largo de varias cláusulas.
RNNs y LSTMs también son lentos de entrenar porque no pueden paralelizar completamente en el tiempo. Puedes agrupar por lotes diferentes oraciones, pero dentro de una misma oración, el paso 50 depende del 49, que depende del 48, y así sucesivamente.
Ese cálculo paso a paso se vuelve una limitación seria cuando quieres modelos más grandes, más datos y experimentación más rápida.
Los investigadores necesitaban un diseño que pudiera relacionar palabras entre sí sin marchar estrictamente de izquierda a derecha durante el entrenamiento: una forma de modelar relaciones de largo alcance directamente y aprovechar mejor el hardware moderno. Esta presión preparó el terreno para el enfoque centrado en atención introducido en Attention Is All You Need.
La atención es la forma que tiene el modelo de preguntarse: “¿A qué otras palabras debo mirar ahora mismo para entender esta palabra?” En lugar de leer una oración estrictamente de izquierda a derecha y confiar en que la memoria mantenga todo, la atención permite al modelo mirar las partes más relevantes de la oración cuando las necesita.
Un modelo mental útil es un pequeño motor de búsqueda dentro de la oración.
Entonces el modelo forma una query para la posición actual, la compara con las keys de todas las posiciones y recupera una mezcla de values.
Esas comparaciones producen puntuaciones de relevancia: señales de “qué tan relacionado está esto”. El modelo las convierte en pesos de atención, que son proporciones que suman 1.
Si una palabra es muy relevante, recibe una mayor parte del foco del modelo. Si varias palabras importan, la atención puede repartirse entre ellas.
Tomemos: “María le dijo a Jenna que ella llamaría más tarde.”
Para interpretar ella, el modelo debe mirar candidatos como “María” y “Jenna”. La atención asigna mayor peso al nombre que mejor encaje en el contexto.
O considera: “Las llaves del armario están perdidas.” La atención ayuda a enlazar “están” con “llaves” (el sujeto verdadero), no con “armario”, aunque “armario” esté más cerca. Ese es el beneficio central: la atención enlaza significado a distancia, cuando se necesita.
La autoatención es la idea de que cada token en una secuencia puede mirar otros tokens de esa misma secuencia para decidir qué importa ahora mismo. En lugar de procesar palabras estrictamente de izquierda a derecha (como los modelos recurrentes antiguos), el Transformer permite que cada token reúna pistas desde cualquier parte de la entrada.
Imagina la oración: “Vertí el agua en la taza porque estaba vacía.” La palabra “estaba” debería conectarse con “taza”, no con “agua”. Con autoatención, el token para “estaba” asigna mayor importancia a tokens que ayudan a resolver su significado (“taza”, “vacía”) y menor importancia a los irrelevantes.
Tras la autoatención, cada token deja de ser solo sí mismo. Se convierte en una versión consciente del contexto: una mezcla ponderada de información de otros tokens. Puedes pensar que cada token crea un resumen personalizado de toda la oración, afinado para lo que necesita.
En la práctica, esto significa que la representación de “taza” puede llevar señales de “vertí”, “agua” y “vacía”, mientras que “vacía” puede incorporar lo que describe.
Porque cada token puede calcular su atención sobre la secuencia completa al mismo tiempo, el entrenamiento no tiene que esperar a que se procesen tokens previos paso a paso. Este procesamiento paralelo es una de las razones principales por las que los Transformers entrenan eficazmente en grandes conjuntos de datos y escalan a modelos enormes.
La autoatención facilita conectar partes distantes del texto. Un token puede enfocarse directamente en una palabra relevante muy lejos, sin pasar información por una larga cadena de pasos intermedios.
Ese camino directo ayuda en tareas como correferencia (“ella”, “ello”, “ellos”), mantener el tema a través de párrafos y manejar instrucciones que dependen de detalles anteriores.
Un único mecanismo de atención es poderoso, pero aún se siente como entender una conversación con una sola cámara. Las oraciones a menudo contienen varias relaciones a la vez: quién hizo qué, a qué se refiere “ello”, qué palabras marcan el tono y cuál es el tema.
Cuando lees “El trofeo no cabía en la maleta porque era demasiado pequeño”, quizá necesites rastrear varias pistas a la vez (gramática, significado y sentido común). Una sola cabeza de atención puede centrarse en el sustantivo más cercano; otra puede usar la frase verbal para decidir a qué refiere “era”.
La atención multi-cabeza ejecuta varias atenciones en paralelo. Cada “cabeza” tiende a mirar la oración a través de una lente distinta—frecuentemente descritas como subespacios distintos. En la práctica, eso permite que las cabezas se especialicen en patrones como:
Después de que cada cabeza produzca sus propias ideas, el modelo no elige solo una. Concatena las salidas de las cabezas (apilándolas lado a lado) y luego las proyecta de vuelta al espacio de trabajo principal del modelo con una capa lineal aprendida.
Piensa en ello como fusionar varias notas parciales en un resumen limpio que la siguiente capa pueda usar. El resultado es una representación que puede capturar muchas relaciones a la vez—una de las razones por las que los Transformers funcionan tan bien a escala.
La autoatención es excelente para detectar relaciones—pero por sí sola no sabe quién vino primero. Si desordenas las palabras de una oración, una capa de autoatención simple puede tratar la versión mezclada como igualmente válida, porque compara tokens sin un sentido incorporado de posición.
La codificación posicional soluciona esto inyectando información de “¿dónde estoy en la secuencia?” en las representaciones de los tokens. Una vez que la posición está adjunta, la atención puede aprender patrones como “la palabra justo después de no importa mucho” o “el sujeto suele aparecer antes del verbo” sin tener que inferir el orden desde cero.
La idea central es simple: cada embedding de token se combina con una señal de posición antes de entrar al bloque Transformer. Esa señal de posición puede entenderse como un conjunto extra de características que etiquetan un token como 1.º, 2.º, 3.º… en la entrada.
Hay varios enfoques comunes:
Las elecciones posicionales pueden afectar notablemente el modelado de contextos largos—cosas como resumir un informe extenso, rastrear entidades a través de muchos párrafos o recuperar un detalle mencionado miles de tokens antes.
Con entradas largas, el modelo no solo aprende lenguaje; aprende dónde mirar. Los esquemas relativos y tipo-rotary tienden a facilitar comparar tokens muy separados y preservan patrones a medida que el contexto crece, mientras que algunos esquemas absolutos pueden degradarse más rápido cuando se excede la ventana de entrenamiento.
En la práctica, la codificación posicional es una de esas decisiones de diseño discretas que pueden determinar si un LLM se siente afilado y consistente a 2.000 tokens y aún coherente a 100.000.
Un Transformer no es solo “atención”. El trabajo real ocurre dentro de una unidad repetida—a menudo llamada bloque Transformer—que mezcla información entre tokens y luego la refina. Apila muchos de estos bloques y obtendrás la profundidad que hace tan capaces a los modelos de lenguaje grandes.
La autoatención es el paso de comunicación: cada token recopila contexto de otros tokens.
La red feed-forward (FFN), también llamada MLP, es el paso de pensamiento: toma la representación actualizada de cada token y ejecuta la misma pequeña red neuronal sobre ella de forma independiente.
En términos sencillos, la FFN transforma y remodela lo que cada token ya sabe, ayudando al modelo a construir características más ricas (como patrones sintácticos, hechos o rasgos de estilo) después de haber recogido el contexto relevante.
La alternancia importa porque las dos partes hacen trabajos distintos:
Repetir ese patrón permite al modelo construir gradualmente significados de más alto nivel: comunicar, calcular, comunicar otra vez, calcular otra vez.
Cada subcapa (atención o FFN) está envuelta con una conexión residual: la entrada se suma a la salida. Esto ayuda a que los modelos profundos entrenen porque los gradientes pueden fluir por el “carril de salto” incluso si una capa aún está aprendiendo. También permite que una capa haga ajustes pequeños en lugar de tener que reaprender todo desde cero.
La normalización por capas es un estabilizador que evita que las activaciones se disparen o se hundan al pasar por muchas capas. Piénsalo como mantener un nivel de volumen consistente para que las capas posteriores no se saturen ni se queden sin señal—haciendo el entrenamiento más suave y confiable, especialmente a escala de LLM.
El Transformer original en Attention Is All You Need se diseñó para traducción, donde conviertes una secuencia (francés) en otra (inglés). Ese trabajo se divide naturalmente en dos roles: leer bien la entrada y escribir la salida con fluidez.
En un Transformer codificador–decodificador, el codificador procesa toda la oración de entrada a la vez y produce un conjunto rico de representaciones. El decodificador genera la salida un token a la vez.
Crucialmente, el decodificador no depende solo de sus tokens pasados: también usa cross-attention para mirar las salidas del codificador, ayudándole a estar anclado en el texto fuente.
Esta configuración sigue siendo excelente cuando debes condicionar fuertemente en una entrada—traducción, resumen o preguntas con un pasaje específico.
La mayoría de los LLMs modernos son solo-decodificador. Se entrenan para una tarea simple y poderosa: predecir el siguiente token.
Para que esto funcione, usan autoatención enmascarada (causal). Cada posición solo puede atender a tokens anteriores, no futuros, así la generación se mantiene consistente: el modelo escribe de izquierda a derecha, extendiendo continuamente la secuencia.
Esto domina en LLMs porque es sencillo de entrenar en enormes corpus de texto, coincide directamente con el caso de uso de generación y escala eficientemente con datos y cómputo.
Los Transformers solo-codificador (estilo BERT) no generan texto; leen la entrada de forma bidireccional. Son estupendos para clasificación, búsqueda y embeddings—todo lo que requiera entender un texto más que producir una larga continuación.
Los Transformers resultaron especialmente amigables con el escalado: si les das más texto, más cómputo y modelos más grandes, tienden a mejorar de forma predecible.
Una gran razón es la simplicidad estructural. Un Transformer está construido a partir de bloques repetidos (autoatención + una pequeña red feed-forward, más normalización), y esos bloques se comportan de forma similar tanto si entrenas con un millón de palabras como con un billón.
Los modelos de secuencia anteriores (como RNNs) tenían que procesar tokens uno por uno, lo que limita cuánto trabajo puedes hacer a la vez. Los Transformers, en cambio, pueden procesar todos los tokens de una secuencia en paralelo durante el entrenamiento.
Eso los hace ideales para GPUs/TPUs y configuraciones distribuidas grandes—justo lo necesario al entrenar LLMs modernos.
La ventana de contexto es el fragmento de texto que el modelo puede “ver” en un momento dado: tu prompt más la conversación reciente o texto de documento. Una ventana mayor permite al modelo conectar ideas a lo largo de más oraciones o páginas, mantener restricciones y responder preguntas que dependen de detalles anteriores.
Pero el contexto no es gratis.
La autoatención compara tokens entre sí. A medida que la secuencia se alarga, el número de comparaciones crece rápidamente (aproximadamente con el cuadrado de la longitud).
Por eso las ventanas de contexto muy largas pueden ser caras en memoria y cómputo, y por qué muchos esfuerzos modernos se centran en hacer la atención más eficiente.
Cuando los Transformers se entrenan a escala, no solo mejoran en una tarea concreta. A menudo empiezan a mostrar capacidades amplias y flexibles—resumir, traducir, escribir, programar y razonar—porque la misma maquinaria de aprendizaje general se aplica a datos enormes y variados.
El diseño original del Transformer sigue siendo el punto de referencia, pero la mayoría de los LLMs de producción son “Transformers más”: pequeñas ediciones prácticas que mantienen el bloque central (atención + MLP) mientras mejoran la velocidad, estabilidad o la longitud del contexto.
Muchas mejoras no cambian qué es el modelo, sino que hacen que entren y se ejecute mejor:
Estos cambios por lo general no alteran la “essencia Transformer”: la refinan.
Extender el contexto de unos pocos miles de tokens a decenas o cientos de miles suele apoyarse en atención dispersa (atender solo a tokens seleccionados) o variantes de atención eficiente (aproximar o reestructurar la atención para reducir cómputo).
El compromiso suele ser entre precisión, memoria y complejidad de ingeniería.
Los modelos MoE añaden múltiples subredes “expertas” y enrutan cada token solo a un subconjunto. Conceptualmente: obtienes un cerebro más grande, pero no activas todo cada vez.
Esto puede reducir el cómputo por token para un conteo de parámetros dado, pero aumenta la complejidad del sistema (enrutamiento, balanceo de expertos, serving).
Cuando un modelo presume una nueva variante Transformer, pide:
La mayoría de las mejoras son reales—pero raramente son gratis.
Las ideas del Transformer, como la autoatención y el escalado, son fascinantes—pero los equipos de producto las sienten más como compensaciones: cuánto texto puedes introducir, qué tan rápido llega la respuesta y cuánto cuesta por petición.
Longitud de contexto: Más contexto permite incluir más documentos, historial de chat e instrucciones. También incrementa el gasto en tokens y puede ralentizar las respuestas. Si tu función depende de “leer estas 30 páginas y responder”, prioriza la longitud de contexto.
Latencia: Experiencias de chat y copiloto en tiempo real viven o mueren por el tiempo de respuesta. La salida en streaming ayuda, pero la elección del modelo, la región y el batching también importan.
Coste: El precio suele ser por token (entrada + salida). Un modelo que sea 10% “mejor” puede costar 2–5× más. Usa comparaciones de precios para decidir qué nivel de calidad merece la pena pagar.
Calidad: Defínela para tu caso: precisión factual, seguir instrucciones, tono, uso de herramientas o código. Evalúa con ejemplos reales de tu dominio, no solo benchmarks genéricos.
Si principalmente necesitas búsqueda, deduplicación, clustering, recomendaciones o “encontrar similar”, los embeddings (a menudo modelos estilo codificador) suelen ser más baratos, rápidos y estables que invocar un modelo de generación. Usa generación solo para el paso final (resúmenes, explicaciones, redacción) tras la recuperación.
Para un análisis más profundo, dirige a tu equipo a un explicador técnico como /blog/embeddings-vs-generation.
Al convertir las capacidades del Transformer en un producto, la parte difícil suele ser menos la arquitectura y más el flujo alrededor de ella: iteración del prompt, grounding, evaluación y despliegue seguro.
Una vía práctica es usar una plataforma de vibe-coding como Koder.ai para prototipar y lanzar funciones respaldadas por LLMs más rápido: puedes describir la app web, endpoints de backend y modelo de datos en chat, iterar en modo planificación y luego exportar código fuente o desplegar con hosting, dominios personalizados y rollback mediante snapshots. Eso es especialmente útil cuando experimentas con recuperación, embeddings o bucles de invocación de herramientas y necesitas ciclos de iteración cerrados sin reconstruir la infraestructura básica cada vez.
Un Transformer es una arquitectura de red neuronal para datos secuenciales que usa autoatención para relacionar cada token con todos los demás tokens en la misma entrada.
En lugar de transportar información paso a paso (como RNNs/LSTMs), construye contexto decidiendo a qué prestar atención a lo largo de toda la secuencia, lo que mejora la comprensión a distancia y hace que el entrenamiento sea más paralelizable.
Las RNNs y las LSTMs procesan texto un token a la vez, lo que dificulta la paralelización del entrenamiento y crea un cuello de botella para dependencias de largo alcance.
Los Transformers usan atención para conectar tokens distantes directamente y pueden computar muchas interacciones token-a-token en paralelo durante el entrenamiento, lo que los hace más rápidos de escalar con más datos y cómputo.
La atención es un mecanismo para responder: “¿Qué otros tokens importan más para entender este token ahora mismo?”
Puedes imaginarlo como una recuperación dentro de la oración:
Autoatención significa que los tokens de una secuencia atienden a otros tokens de la misma secuencia.
Es la herramienta central que permite al modelo resolver cosas como correferencias (por ejemplo, a qué refiere “ella”), relaciones sujeto–verbo en cláusulas separadas y dependencias que aparecen muy separadas en el texto, sin pasar todo por una única “memoria” recurrente.
La atención multi-cabeza ejecuta varios cálculos de atención en paralelo, y cada cabeza puede especializarse en patrones distintos.
En la práctica, distintas cabezas suelen centrarse en relaciones diferentes (sintaxis, enlaces de largo alcance, resolución de pronombres, señales temáticas). El modelo luego combina estas vistas para poder representar varios tipos de estructura a la vez.
La autoatención por sí sola no conoce el orden de los tokens: sin información posicional, reordenar las palabras puede parecer igual.
Las codificaciones posicionales inyectan señales de posición en las representaciones de los tokens para que el modelo aprenda patrones como “lo que viene justo después de no importa mucho” o la típica estructura sujeto-antes-del-verbo.
Opciones comunes: sinusoidal (fija), posiciones absolutas aprendidas y métodos relativos/rotatory.
Un bloque Transformer típicamente combina:
El Transformer original es codificador–decodificador:
Sin embargo, la mayoría de los LLMs actuales son , entrenados para predecir el siguiente token usando , lo que coincide con la generación izquierda-a-derecha y escala bien con grandes corpus.
Noam Shazeer fue coautor del artículo de 2017 “Attention Is All You Need”, que introdujo el Transformer.
Es correcto reconocerlo como un colaborador clave, pero la arquitectura surgió del trabajo en equipo en Google y su impacto también proviene de las muchas mejoras posteriores de la comunidad e industria sobre aquella receta original.
Para entradas largas, la autoatención estándar se vuelve costosa porque las comparaciones crecen aproximadamente con el cuadrado de la longitud de la secuencia, afectando memoria y cómputo.
Medidas prácticas para equipos:
La salida es una mezcla ponderada de tokens relevantes, dando a cada posición una representación consciente del contexto.
Apilar muchos bloques produce la profundidad que permite características más ricas y mejor rendimiento a escala.