Saltar al contenido
todas las lecciones

Memoria del curso

Tu capa de memoria para todo el curso: cada término en lenguaje sencillo, enlazado a la lección donde lo viste funcionar, conectado con ideas relacionadas y listo para repasar. Recordar supera a releer.

53 términos

Fundamentos: cómo funcionan los LLM (18)

Atencióntambién: autoatención, mecanismo de atención
El mecanismo que permite a cada token mirar a los demás tokens e incorporar los que son relevantes para su significado. Es la idea central del transformer.
Apréndelo: 3.3 Cómo la atención mezcla el significado
Relacionados:Token
Máscara causaltambién: enmascaramiento causal, atención enmascarada
Una regla que impide que un token preste atención a tokens futuros durante el entrenamiento, de modo que el modelo aprenda a predecir y no a espiar lo que viene.
Apréndelo: 3.4 Por qué no puede mirar hacia adelante
Relacionados:Token
Producto escalar / similitud del cosenotambién: similitud del coseno, producto escalar
Una forma de medir cuán alineados están dos vectores multiplicando los números que se corresponden y sumándolos. Así es como un modelo mide la similitud de significado, y reaparece en la atención y en RAG.
Apréndelo: 1.3 Medir el significado con un número
Relacionados:AtenciónVector
Embeddingtambién: embedding de palabra, embeddings, vector de palabra
Una lista de números (un vector) que representa el significado de una palabra como una posición en el espacio, de modo que las palabras similares quedan cerca y una máquina puede hacer cálculos sobre el significado.
Apréndelo: 1.2 Embeddings: el significado como coordenadas
Relacionados:Vector
Descenso de gradiente
El método de entrenamiento: ajustar un poco cada parámetro en la dirección que reduce la pérdida, una y otra vez, como rodar cuesta abajo por la superficie de la pérdida.
Apréndelo: 2.4 Descenso de gradiente: rodar cuesta abajo
Relacionados:Pérdida
Normalización de capatambién: layernorm, normalización
Un paso que reescala un vector de vuelta a un rango estable a medida que pasa por cada capa, evitando que los valores se disparen o se desvanezcan en redes profundas.
Apréndelo: 3.7 Mantener viva la señal
Relacionados:Vector
Pérdidatambién: pérdida de entrenamiento, entropía cruzada
Un único número que mide cuánto le sorprendió al modelo la palabra siguiente correcta. Cuanto más baja, mejor; entrenar es la búsqueda de una pérdida menor.
Apréndelo: 2.3 La pérdida como marcador
Atención multicabezatambién: cabezales de atención
Ejecutar varios patrones de atención en paralelo, cada uno libre de seguir una relación distinta (gramática, referencia, …), y luego combinarlos.
Apréndelo: 3.5 Atención multicabeza
Relacionados:Atención
Multimodal modeltambién: modelo de visión-lenguaje, VLM
Un modelo que maneja más que texto: las imágenes se cortan en patches y el audio en fragmentos, cada uno convertido en un vector en el mismo espacio que los tokens de texto, para que un transformer los atienda juntos.
Apréndelo: 1.5 Más allá del texto: las imágenes también se vuelven tokens
Relacionados:TokenVector
Modelo de n-gramastambién: bigrama, n-grama
Un predictor sencillo que adivina la siguiente palabra a partir de la anterior o de unas pocas palabras previas. Muestra por qué una ventana de contexto fija y diminuta no es suficiente.
Apréndelo: 2.2 Un primer intento: solo la última palabra
Parámetro / pesotambién: pesos, parámetros
Uno de los números aprendidos del modelo. Los modelos de frontera tienen miles de millones; entrenar es el proceso de ajustarlos para que mejoren las predicciones.
Apréndelo: 3.6 Qué hace en realidad una capa neuronal
Consulta, Clave, Valor (Q/K/V)también: consulta clave valor, qkv
Tres vectores que produce cada token. La Consulta (Query) de un token se compara con cada Clave (Key), mediante el producto escalar, para decidir cuánto de cada Valor (Value) mezclar.
Apréndelo: 3.2 Query, Key, Value
Relacionados:TokenVector
Conexión residualtambién: conexión de salto
Un atajo que suma la entrada de una capa a su salida, de modo que la señal original sobreviva a través de una pila profunda y la red siga siendo entrenable.
Apréndelo: 3.7 Mantener viva la señal
Softmax
Una función que convierte puntuaciones en bruto en un conjunto de pesos que suman 1, es decir, una distribución de probabilidad. La atención la usa para transformar las puntuaciones de coincidencia en una mezcla.
Apréndelo: 3.3 Cómo la atención mezcla el significado
Relacionados:Atención
Tokentambién: tokens, tokenización
La unidad que un modelo de lenguaje lee y escribe, normalmente una palabra o un fragmento de palabra. El texto se divide en tokens, y el modelo solo predice el siguiente.
Apréndelo: 0.1 ¿Cómo piensa una IA?
Tokenization (BPE)también: BPE, byte-pair encoding, tokens
Dividir el texto en tokens, trozos de sub-palabra comunes de un vocabulario fijo que aprende un algoritmo como Byte-Pair Encoding. El modelo lee ids de token, no letras, por eso cuenta mal los caracteres y cobra por token.
Apréndelo: 1.4 Cómo la IA parte el texto en tokens
Relacionados:Token
Bloque transformertambién: transformer, arquitectura transformer
La unidad que se repite en un LLM moderno: atención + una capa feed-forward, envuelta en conexiones residuales y normalización. Apila muchos y tienes el modelo.
Apréndelo: 3.8 El bloque transformer, ensamblado y apilado
Vector
Una lista ordenada de números. En un LLM, las palabras, las posiciones y los estados internos son todos vectores, y eso es lo que permite al modelo calcular con ellos.
Apréndelo: 1.1 Convertir palabras en números

Escalado y hardware (13)

Chain of thoughttambién: razonamiento, razonamiento, CoT
Tokens que un modelo genera para 'razonar' antes de su respuesta final. Los modelos de razonamiento se entrenan para hacer esto; el pensar son solo más tokens generados antes de responder.
Apréndelo: 4.8 El modelo piensa antes de responder
Relacionados:Token
Ventana de contexto
El número máximo de tokens al que un modelo puede prestar atención a la vez. Todo lo que queda fuera es invisible para el modelo en esa llamada.
Apréndelo: 4.2 Ventana de contexto y caché KV
Relacionados:Token
Distillationtambién: destilación de conocimiento, maestro-estudiante
Entrenar un modelo 'estudiante' pequeño para imitar a un 'maestro' grande, de modo que conserve casi toda la habilidad a una fracción del tamaño y el costo. La mayoría de los modelos pequeños y rápidos que usas están destilados.
Apréndelo: 4.12 Destilación: un modelo pequeño aprende de uno grande
Relacionados:Skill
GPUtambién: unidad de procesamiento gráfico
Un procesador con miles de núcleos en paralelo. Las multiplicaciones de matrices dentro de un LLM son masivamente paralelas, así que el hardware ancho de una GPU las ejecuta mucho más rápido que una CPU.
Apréndelo: S.1 Por qué las GPUs ganan a las CPUs
Caché KVtambién: caché clave-valor
Un truco de velocidad que almacena las Claves y los Valores ya calculados para los tokens anteriores, de modo que generar cada nuevo token los reutilice en lugar de recalcularlos.
Apréndelo: 4.2 Ventana de contexto y caché KV
Relacionados:Token
Mezcla de Expertos (MoE)también: MoE, expertos
Una arquitectura en la que un enrutador envía cada token a unas pocas subredes especializadas (expertos), de modo que el modelo almacena mucho conocimiento pero solo ejecuta una porción por token.
Apréndelo: 4.5 Mezcla de expertos
Relacionados:Token
Codificación posicionaltambién: embedding posicional, RoPE
Información que se añade a cada token para que el modelo conozca el orden de las palabras, porque la atención por sí sola es ciega al orden.
Apréndelo: 4.3 Cómo el modelo sabe el orden de las palabras
Relacionados:AtenciónToken
Cuantización
Almacenar los pesos de un modelo con menos bits de precisión para reducir la memoria y acelerar el servicio, a un coste pequeño y por lo general aceptable en calidad.
Apréndelo: 4.6 Cuantización
Leyes de escaladotambién: escalado Chinchilla
El hallazgo empírico de que la pérdida disminuye de forma predecible a medida que añades parámetros, datos y cómputo. Pronostican la pérdida, no qué habilidades concretas emergerán.
Apréndelo: 4.4 Leyes de escalado
Relacionados:Pérdida
Speculative decodingtambién: redactar y verificar
Una aceleración donde un modelo pequeño y rápido redacta varios tokens por adelantado y el modelo grande los verifica de una pasada, conservando el prefijo en que coinciden, la misma salida, menos pasos lentos.
Apréndelo: 4.11 Decodificación especulativa: dos modelos, una respuesta rápida
Relacionados:Token
Temperatura
Una perilla de decodificación para la aleatoriedad. Cerca de 0, el modelo elige siempre la palabra más probable (determinista); con valores más altos, muestrea de forma más creativa.
Apréndelo: 4.1 Ajustar la creatividad del modelo
Test-time computetambién: cómputo en tiempo de inferencia, presupuesto de razonamiento
Gastar más cómputo por pregunta en la inferencia, pensar más, o muestrear muchas respuestas y elegir la mejor, para subir la precisión. Una tercera forma de escalar la capacidad, más allá de los parámetros y los datos de entrenamiento.
Apréndelo: 4.9 Cómputo en inferencia: paga al responder
Muestreo top-k / top-ptambién: muestreo por núcleo, top-p, top-k
Formas de elegir la siguiente palabra solo entre los candidatos más probables: los k mejores (top-k) o el conjunto más pequeño que cubre una probabilidad p (top-p / núcleo).
Apréndelo: 4.1 Ajustar la creatividad del modelo

Sistemas de IA y agentes (12)

Agentetambién: agente de IA, uso de herramientas
Un bucle alrededor de un modelo: propone una acción, se ejecuta una herramienta, el resultado vuelve a entrar en el contexto y se repite, convirtiendo un predictor de un solo paso en algo que puede actuar.
Apréndelo: 5.3 Herramientas y agentes: el bucle alrededor de un modelo congelado
Autonomy levelstambién: humano en el bucle
Cuánto hace un agente por su cuenta, desde sugerir, hasta preguntar antes de cada paso, hasta encargarse de una tarea entera. Más no es mejor: ajústalo a qué tan bien acotada está la tarea y qué tan fácil puedes verificar el resultado.
Apréndelo: 6.14 ¿Cuánta correa? Niveles de autonomía
Relacionados:Agente
Context rottambién: lost in the middle
La tendencia medida de que la precisión de todo modelo se degrada a medida que se llena el context window, incluso en tareas fáciles. Un prompt corto y enfocado suele ganarle a la misma respuesta enterrada en uno enorme, así que curar el contexto le gana a abarrotarlo.
Apréndelo: 6.3 Ingeniería de contexto: corta el ruido
Relacionados:Ventana de contexto
Alucinacióntambién: confabulación
Cuando un modelo afirma algo falso con seguridad. Ocurre porque el modelo se optimiza para generar texto que suene plausible, no para producir verdades verificadas.
Apréndelo: 5.1 El modelo está congelado y sin estado
Harnesstambién: agent harness, agente de programación
El programa que envuelve a un modelo y le permite actuar: hace un bucle, lee el context window, deja que el modelo proponga una llamada a una herramienta, ejecuta la herramienta y le devuelve el resultado, hasta terminar la tarea. Claude Code, Codex y Cursor son harnesses.
Apréndelo: 6.1 El harness: el bucle, hecho realidad
MCP (Model Context Protocol)también: Model Context Protocol
Un estándar abierto para conectar un modelo/harness a herramientas y fuentes de datos externas (archivos, APIs, bases de datos) de forma uniforme, lo conectas una vez y lo usas desde cualquier herramienta compatible con MCP. Convierte N×M integraciones a medida en N+M.
Apréndelo: 6.8 MCP: el conector universal
Relacionados:Harness
Multi-agent (orchestrator & subagents)también: subagente, orquestador, enjambre de agentes
Repartir un trabajo entre agentes: un orquestador delega subtareas a subagentes, cada uno con su propio contexto limpio, a menudo en paralelo. Potente para búsquedas amplias, pero multiplica el costo y puede fragmentarse.
Apréndelo: 6.15 Muchos agentes: orquestador y subagentes
Relacionados:Agente
Prompt cachingtambién: caching de prefijo
Reutilizar la forma ya procesada de un prefijo de prompt estable para no pagar el precio completo al reenviarlo. Una lectura de cache cuesta cerca del 10% de un token de entrada normal; solo acierta si el prefijo no cambió, así que pon primero el contenido estable.
Apréndelo: 6.4 Prompt caching: reutiliza el prefijo
Relacionados:Token
ReActtambién: razonar y actuar, agent loop
El patrón del bucle del agente razonar → actuar → observar: en cada turno el modelo escribe un pensamiento privado, toma una acción (una llamada a herramienta) y luego lee el resultado, intercalando pensar y actuar en vez de responder de una sola vez.
Apréndelo: 6.11 Dentro de un turno: razonar, luego actuar
Relacionados:Agente
Generación Aumentada por Recuperación (RAG)también: RAG, generación aumentada por recuperación
Dar a un modelo congelado conocimiento nuevo o privado buscando en tus documentos los fragmentos más relevantes (usando similitud) y pegándolos en su contexto.
Apréndelo: 5.2 RAG: la recuperación como retorno a la similitud
Skilltambién: skill de agente, divulgación progresiva
Un paquete de experiencia que el agente carga bajo demanda: solo su descripción de una línea está en contexto hasta que es relevante, y entonces se cargan sus instrucciones completas (divulgación progresiva), capacidad sin un costo permanente de contexto.
Apréndelo: 6.6 Skills y contexto bajo demanda
Relacionados:Agente
System prompttambién: mensaje de sistema
Las instrucciones fijas que van justo al inicio del context window, quién es el asistente, sus reglas y herramientas. Se envía cada turno, por eso es la candidata ideal para el prompt caching.
Apréndelo: 6.2 Qué hay en el context window

Producción, evals y seguridad (8)

Data flywheeltambién: bucle de retroalimentación
El bucle que se retroalimenta: el tráfico de producción se registra, los casos difíciles se curan y etiquetan, vuelven a las evals y al entrenamiento, y producen un mejor modelo y más uso. Los datos propios de producción se vuelven el foso defensivo.
Apréndelo: 7.6 El volante de datos
Relacionados:Eval
Evaltambién: evaluación, conjunto de evals
Un conjunto de pruebas para una app de LLM, entradas emparejadas con respuestas esperadas o criterios de puntuación, que se puntúa en cada cambio para que publiques mejoras, no regresiones. Como pruebas unitarias para prompts.
Apréndelo: 7.3 Evals: demostrar que funciona
Ground truthtambién: datos etiquetados, conjunto gold, etiquetado de datos
Las 'respuestas correctas' verificadas contra las que se juzga un dataset, construidas por personas con guías claras, varios etiquetadores y comprobaciones de acuerdo. Las evals y el entrenamiento valen lo que vale su ground truth.
Apréndelo: 7.5 Datasets, etiquetado y ground truth
Relacionados:Eval
Lethal trifectatambién: exfiltración de datos
La combinación peligrosa de que un agente tenga acceso a datos privados, exposición a contenido no confiable y una forma de enviar datos hacia afuera, juntas permiten la exfiltración de datos vía prompt injection. Quita cualquiera de las tres patas para desactivarla.
Apréndelo: 7.7 La tríada letal
LLM-as-a-judgetambién: eval calificada por un modelo
Usar un modelo fuerte para calificar salidas a escala contra una guía de puntuación (puntuación individual o comparaciones por pares). Escalable, pero propenso a sesgos (posición, verbosidad, autopreferencia), calíbralo contra etiquetas humanas.
Apréndelo: 7.4 LLM-as-a-judge
Observabilitytambién: trazado, monitoreo
Ver por dentro una app de LLM en producción: trazar cada petición (recuperación, prompt, modelo, herramientas) y registrar entradas, salidas, tokens, latencia, costo, errores y feedback de los usuarios. No puedes arreglar lo que no puedes ver.
Apréndelo: 7.2 Observability: ver por dentro
Relacionados:EvalToken
Prompt injectiontambién: jailbreak, guardrails
Un ataque donde el contenido no confiable que el modelo lee se trata como nuevas instrucciones (el modelo ve instrucciones y datos por un mismo canal). El riesgo de seguridad #1 en LLM y no del todo resoluble, los guardrails lo reducen, no lo eliminan.
Apréndelo: 7.1 Una feature de LLM en producción
Structured outputstambién: decodificación restringida, modo JSON
Restringir la salida de un modelo a un schema (p. ej. JSON) permitiendo solo tokens siguientes válidos según el schema, para que siempre parsee. Una forma válida no es lo mismo que un valor correcto, así que valida también el contenido.
Apréndelo: 7.9 Salidas estructuradas: JSON garantizado
Relacionados:Token

Profundizaciones e IA actual (2)

Ajuste fino (fine-tuning)también: LoRA, adaptador
Seguir entrenando un modelo preentrenado con datos adicionales para especializarlo, frente al prompting, que cambia el comportamiento solo con instrucciones. LoRA lo hace de forma económica con pequeños pesos de adaptador.
Apréndelo: E.2 Fine-tuning vs. prompting
RLHFtambién: aprendizaje por refuerzo a partir de retroalimentación humana, postentrenamiento
Aprendizaje por Refuerzo a partir de Retroalimentación Humana: las personas clasifican las salidas del modelo para entrenar un modelo de recompensa, que luego se usa para guiar al modelo hacia respuestas útiles y alineadas.
Apréndelo: E.1 RLHF / post-entrenamiento