← todas las lecciones
Memoria del curso
Tu capa de memoria para todo el curso: cada término en lenguaje sencillo, enlazado a la lección donde lo viste funcionar, conectado con ideas relacionadas y listo para repasar. Recordar supera a releer.
53 términos
Fundamentos: cómo funcionan los LLM (18)
- Atencióntambién: autoatención, mecanismo de atención
- El mecanismo que permite a cada token mirar a los demás tokens e incorporar los que son relevantes para su significado. Es la idea central del transformer. Apréndelo: 3.3 Cómo la atención mezcla el significado →
- Máscara causaltambién: enmascaramiento causal, atención enmascarada
- Una regla que impide que un token preste atención a tokens futuros durante el entrenamiento, de modo que el modelo aprenda a predecir y no a espiar lo que viene. Apréndelo: 3.4 Por qué no puede mirar hacia adelante →
- Producto escalar / similitud del cosenotambién: similitud del coseno, producto escalar
- Una forma de medir cuán alineados están dos vectores multiplicando los números que se corresponden y sumándolos. Así es como un modelo mide la similitud de significado, y reaparece en la atención y en RAG. Apréndelo: 1.3 Medir el significado con un número →
- Embeddingtambién: embedding de palabra, embeddings, vector de palabra
- Una lista de números (un vector) que representa el significado de una palabra como una posición en el espacio, de modo que las palabras similares quedan cerca y una máquina puede hacer cálculos sobre el significado. Apréndelo: 1.2 Embeddings: el significado como coordenadas →
- Descenso de gradiente
- El método de entrenamiento: ajustar un poco cada parámetro en la dirección que reduce la pérdida, una y otra vez, como rodar cuesta abajo por la superficie de la pérdida. Apréndelo: 2.4 Descenso de gradiente: rodar cuesta abajo →
- Normalización de capatambién: layernorm, normalización
- Un paso que reescala un vector de vuelta a un rango estable a medida que pasa por cada capa, evitando que los valores se disparen o se desvanezcan en redes profundas. Apréndelo: 3.7 Mantener viva la señal →
- Pérdidatambién: pérdida de entrenamiento, entropía cruzada
- Un único número que mide cuánto le sorprendió al modelo la palabra siguiente correcta. Cuanto más baja, mejor; entrenar es la búsqueda de una pérdida menor. Apréndelo: 2.3 La pérdida como marcador →
- Atención multicabezatambién: cabezales de atención
- Ejecutar varios patrones de atención en paralelo, cada uno libre de seguir una relación distinta (gramática, referencia, …), y luego combinarlos. Apréndelo: 3.5 Atención multicabeza →
- Multimodal modeltambién: modelo de visión-lenguaje, VLM
- Un modelo que maneja más que texto: las imágenes se cortan en patches y el audio en fragmentos, cada uno convertido en un vector en el mismo espacio que los tokens de texto, para que un transformer los atienda juntos. Apréndelo: 1.5 Más allá del texto: las imágenes también se vuelven tokens →
- Modelo de n-gramastambién: bigrama, n-grama
- Un predictor sencillo que adivina la siguiente palabra a partir de la anterior o de unas pocas palabras previas. Muestra por qué una ventana de contexto fija y diminuta no es suficiente. Apréndelo: 2.2 Un primer intento: solo la última palabra →
- Parámetro / pesotambién: pesos, parámetros
- Uno de los números aprendidos del modelo. Los modelos de frontera tienen miles de millones; entrenar es el proceso de ajustarlos para que mejoren las predicciones. Apréndelo: 3.6 Qué hace en realidad una capa neuronal →
- Consulta, Clave, Valor (Q/K/V)también: consulta clave valor, qkv
- Tres vectores que produce cada token. La Consulta (Query) de un token se compara con cada Clave (Key), mediante el producto escalar, para decidir cuánto de cada Valor (Value) mezclar. Apréndelo: 3.2 Query, Key, Value →
- Conexión residualtambién: conexión de salto
- Un atajo que suma la entrada de una capa a su salida, de modo que la señal original sobreviva a través de una pila profunda y la red siga siendo entrenable. Apréndelo: 3.7 Mantener viva la señal →
- Softmax
- Una función que convierte puntuaciones en bruto en un conjunto de pesos que suman 1, es decir, una distribución de probabilidad. La atención la usa para transformar las puntuaciones de coincidencia en una mezcla. Apréndelo: 3.3 Cómo la atención mezcla el significado →
- Tokentambién: tokens, tokenización
- La unidad que un modelo de lenguaje lee y escribe, normalmente una palabra o un fragmento de palabra. El texto se divide en tokens, y el modelo solo predice el siguiente. Apréndelo: 0.1 ¿Cómo piensa una IA? →
- Tokenization (BPE)también: BPE, byte-pair encoding, tokens
- Dividir el texto en tokens, trozos de sub-palabra comunes de un vocabulario fijo que aprende un algoritmo como Byte-Pair Encoding. El modelo lee ids de token, no letras, por eso cuenta mal los caracteres y cobra por token. Apréndelo: 1.4 Cómo la IA parte el texto en tokens →
- Bloque transformertambién: transformer, arquitectura transformer
- La unidad que se repite en un LLM moderno: atención + una capa feed-forward, envuelta en conexiones residuales y normalización. Apila muchos y tienes el modelo. Apréndelo: 3.8 El bloque transformer, ensamblado y apilado →
- Vector
- Una lista ordenada de números. En un LLM, las palabras, las posiciones y los estados internos son todos vectores, y eso es lo que permite al modelo calcular con ellos. Apréndelo: 1.1 Convertir palabras en números →
Relacionados:Token
Relacionados:Token
Relacionados:Vector
Relacionados:Pérdida
Relacionados:Vector
Relacionados:Atención
Relacionados:Atención
Relacionados:Token
Escalado y hardware (13)
- Chain of thoughttambién: razonamiento, razonamiento, CoT
- Tokens que un modelo genera para 'razonar' antes de su respuesta final. Los modelos de razonamiento se entrenan para hacer esto; el pensar son solo más tokens generados antes de responder. Apréndelo: 4.8 El modelo piensa antes de responder →
- Ventana de contexto
- El número máximo de tokens al que un modelo puede prestar atención a la vez. Todo lo que queda fuera es invisible para el modelo en esa llamada. Apréndelo: 4.2 Ventana de contexto y caché KV →
- Distillationtambién: destilación de conocimiento, maestro-estudiante
- Entrenar un modelo 'estudiante' pequeño para imitar a un 'maestro' grande, de modo que conserve casi toda la habilidad a una fracción del tamaño y el costo. La mayoría de los modelos pequeños y rápidos que usas están destilados. Apréndelo: 4.12 Destilación: un modelo pequeño aprende de uno grande →
- GPUtambién: unidad de procesamiento gráfico
- Un procesador con miles de núcleos en paralelo. Las multiplicaciones de matrices dentro de un LLM son masivamente paralelas, así que el hardware ancho de una GPU las ejecuta mucho más rápido que una CPU. Apréndelo: S.1 Por qué las GPUs ganan a las CPUs →
- Caché KVtambién: caché clave-valor
- Un truco de velocidad que almacena las Claves y los Valores ya calculados para los tokens anteriores, de modo que generar cada nuevo token los reutilice en lugar de recalcularlos. Apréndelo: 4.2 Ventana de contexto y caché KV →
- Mezcla de Expertos (MoE)también: MoE, expertos
- Una arquitectura en la que un enrutador envía cada token a unas pocas subredes especializadas (expertos), de modo que el modelo almacena mucho conocimiento pero solo ejecuta una porción por token. Apréndelo: 4.5 Mezcla de expertos →
- Codificación posicionaltambién: embedding posicional, RoPE
- Información que se añade a cada token para que el modelo conozca el orden de las palabras, porque la atención por sí sola es ciega al orden. Apréndelo: 4.3 Cómo el modelo sabe el orden de las palabras →
- Cuantización
- Almacenar los pesos de un modelo con menos bits de precisión para reducir la memoria y acelerar el servicio, a un coste pequeño y por lo general aceptable en calidad. Apréndelo: 4.6 Cuantización →
- Leyes de escaladotambién: escalado Chinchilla
- El hallazgo empírico de que la pérdida disminuye de forma predecible a medida que añades parámetros, datos y cómputo. Pronostican la pérdida, no qué habilidades concretas emergerán. Apréndelo: 4.4 Leyes de escalado →
- Speculative decodingtambién: redactar y verificar
- Una aceleración donde un modelo pequeño y rápido redacta varios tokens por adelantado y el modelo grande los verifica de una pasada, conservando el prefijo en que coinciden, la misma salida, menos pasos lentos. Apréndelo: 4.11 Decodificación especulativa: dos modelos, una respuesta rápida →
- Temperatura
- Una perilla de decodificación para la aleatoriedad. Cerca de 0, el modelo elige siempre la palabra más probable (determinista); con valores más altos, muestrea de forma más creativa. Apréndelo: 4.1 Ajustar la creatividad del modelo →
- Test-time computetambién: cómputo en tiempo de inferencia, presupuesto de razonamiento
- Gastar más cómputo por pregunta en la inferencia, pensar más, o muestrear muchas respuestas y elegir la mejor, para subir la precisión. Una tercera forma de escalar la capacidad, más allá de los parámetros y los datos de entrenamiento. Apréndelo: 4.9 Cómputo en inferencia: paga al responder →
- Muestreo top-k / top-ptambién: muestreo por núcleo, top-p, top-k
- Formas de elegir la siguiente palabra solo entre los candidatos más probables: los k mejores (top-k) o el conjunto más pequeño que cubre una probabilidad p (top-p / núcleo). Apréndelo: 4.1 Ajustar la creatividad del modelo →
Relacionados:Token
Relacionados:Token
Relacionados:Skill
Relacionados:Token
Relacionados:Token
Relacionados:Pérdida
Relacionados:Token
Sistemas de IA y agentes (12)
- Agentetambién: agente de IA, uso de herramientas
- Un bucle alrededor de un modelo: propone una acción, se ejecuta una herramienta, el resultado vuelve a entrar en el contexto y se repite, convirtiendo un predictor de un solo paso en algo que puede actuar. Apréndelo: 5.3 Herramientas y agentes: el bucle alrededor de un modelo congelado →
- Autonomy levelstambién: humano en el bucle
- Cuánto hace un agente por su cuenta, desde sugerir, hasta preguntar antes de cada paso, hasta encargarse de una tarea entera. Más no es mejor: ajústalo a qué tan bien acotada está la tarea y qué tan fácil puedes verificar el resultado. Apréndelo: 6.14 ¿Cuánta correa? Niveles de autonomía →
- Context rottambién: lost in the middle
- La tendencia medida de que la precisión de todo modelo se degrada a medida que se llena el context window, incluso en tareas fáciles. Un prompt corto y enfocado suele ganarle a la misma respuesta enterrada en uno enorme, así que curar el contexto le gana a abarrotarlo. Apréndelo: 6.3 Ingeniería de contexto: corta el ruido →
- Alucinacióntambién: confabulación
- Cuando un modelo afirma algo falso con seguridad. Ocurre porque el modelo se optimiza para generar texto que suene plausible, no para producir verdades verificadas. Apréndelo: 5.1 El modelo está congelado y sin estado →
- Harnesstambién: agent harness, agente de programación
- El programa que envuelve a un modelo y le permite actuar: hace un bucle, lee el context window, deja que el modelo proponga una llamada a una herramienta, ejecuta la herramienta y le devuelve el resultado, hasta terminar la tarea. Claude Code, Codex y Cursor son harnesses. Apréndelo: 6.1 El harness: el bucle, hecho realidad →
- MCP (Model Context Protocol)también: Model Context Protocol
- Un estándar abierto para conectar un modelo/harness a herramientas y fuentes de datos externas (archivos, APIs, bases de datos) de forma uniforme, lo conectas una vez y lo usas desde cualquier herramienta compatible con MCP. Convierte N×M integraciones a medida en N+M. Apréndelo: 6.8 MCP: el conector universal →
- Multi-agent (orchestrator & subagents)también: subagente, orquestador, enjambre de agentes
- Repartir un trabajo entre agentes: un orquestador delega subtareas a subagentes, cada uno con su propio contexto limpio, a menudo en paralelo. Potente para búsquedas amplias, pero multiplica el costo y puede fragmentarse. Apréndelo: 6.15 Muchos agentes: orquestador y subagentes →
- Prompt cachingtambién: caching de prefijo
- Reutilizar la forma ya procesada de un prefijo de prompt estable para no pagar el precio completo al reenviarlo. Una lectura de cache cuesta cerca del 10% de un token de entrada normal; solo acierta si el prefijo no cambió, así que pon primero el contenido estable. Apréndelo: 6.4 Prompt caching: reutiliza el prefijo →
- ReActtambién: razonar y actuar, agent loop
- El patrón del bucle del agente razonar → actuar → observar: en cada turno el modelo escribe un pensamiento privado, toma una acción (una llamada a herramienta) y luego lee el resultado, intercalando pensar y actuar en vez de responder de una sola vez. Apréndelo: 6.11 Dentro de un turno: razonar, luego actuar →
- Generación Aumentada por Recuperación (RAG)también: RAG, generación aumentada por recuperación
- Dar a un modelo congelado conocimiento nuevo o privado buscando en tus documentos los fragmentos más relevantes (usando similitud) y pegándolos en su contexto. Apréndelo: 5.2 RAG: la recuperación como retorno a la similitud →
- Skilltambién: skill de agente, divulgación progresiva
- Un paquete de experiencia que el agente carga bajo demanda: solo su descripción de una línea está en contexto hasta que es relevante, y entonces se cargan sus instrucciones completas (divulgación progresiva), capacidad sin un costo permanente de contexto. Apréndelo: 6.6 Skills y contexto bajo demanda →
- System prompttambién: mensaje de sistema
- Las instrucciones fijas que van justo al inicio del context window, quién es el asistente, sus reglas y herramientas. Se envía cada turno, por eso es la candidata ideal para el prompt caching. Apréndelo: 6.2 Qué hay en el context window →
Relacionados:Agente
Relacionados:Ventana de contexto
Relacionados:Harness
Relacionados:Agente
Relacionados:Token
Relacionados:Agente
Relacionados:Agente
Producción, evals y seguridad (8)
- Data flywheeltambién: bucle de retroalimentación
- El bucle que se retroalimenta: el tráfico de producción se registra, los casos difíciles se curan y etiquetan, vuelven a las evals y al entrenamiento, y producen un mejor modelo y más uso. Los datos propios de producción se vuelven el foso defensivo. Apréndelo: 7.6 El volante de datos →
- Evaltambién: evaluación, conjunto de evals
- Un conjunto de pruebas para una app de LLM, entradas emparejadas con respuestas esperadas o criterios de puntuación, que se puntúa en cada cambio para que publiques mejoras, no regresiones. Como pruebas unitarias para prompts. Apréndelo: 7.3 Evals: demostrar que funciona →
- Ground truthtambién: datos etiquetados, conjunto gold, etiquetado de datos
- Las 'respuestas correctas' verificadas contra las que se juzga un dataset, construidas por personas con guías claras, varios etiquetadores y comprobaciones de acuerdo. Las evals y el entrenamiento valen lo que vale su ground truth. Apréndelo: 7.5 Datasets, etiquetado y ground truth →
- Lethal trifectatambién: exfiltración de datos
- La combinación peligrosa de que un agente tenga acceso a datos privados, exposición a contenido no confiable y una forma de enviar datos hacia afuera, juntas permiten la exfiltración de datos vía prompt injection. Quita cualquiera de las tres patas para desactivarla. Apréndelo: 7.7 La tríada letal →
- LLM-as-a-judgetambién: eval calificada por un modelo
- Usar un modelo fuerte para calificar salidas a escala contra una guía de puntuación (puntuación individual o comparaciones por pares). Escalable, pero propenso a sesgos (posición, verbosidad, autopreferencia), calíbralo contra etiquetas humanas. Apréndelo: 7.4 LLM-as-a-judge →
- Observabilitytambién: trazado, monitoreo
- Ver por dentro una app de LLM en producción: trazar cada petición (recuperación, prompt, modelo, herramientas) y registrar entradas, salidas, tokens, latencia, costo, errores y feedback de los usuarios. No puedes arreglar lo que no puedes ver. Apréndelo: 7.2 Observability: ver por dentro →
- Prompt injectiontambién: jailbreak, guardrails
- Un ataque donde el contenido no confiable que el modelo lee se trata como nuevas instrucciones (el modelo ve instrucciones y datos por un mismo canal). El riesgo de seguridad #1 en LLM y no del todo resoluble, los guardrails lo reducen, no lo eliminan. Apréndelo: 7.1 Una feature de LLM en producción →
- Structured outputstambién: decodificación restringida, modo JSON
- Restringir la salida de un modelo a un schema (p. ej. JSON) permitiendo solo tokens siguientes válidos según el schema, para que siempre parsee. Una forma válida no es lo mismo que un valor correcto, así que valida también el contenido. Apréndelo: 7.9 Salidas estructuradas: JSON garantizado →
Relacionados:Eval
Relacionados:Eval
Relacionados:Token
Profundizaciones e IA actual (2)
- Ajuste fino (fine-tuning)también: LoRA, adaptador
- Seguir entrenando un modelo preentrenado con datos adicionales para especializarlo, frente al prompting, que cambia el comportamiento solo con instrucciones. LoRA lo hace de forma económica con pequeños pesos de adaptador. Apréndelo: E.2 Fine-tuning vs. prompting →
- RLHFtambién: aprendizaje por refuerzo a partir de retroalimentación humana, postentrenamiento
- Aprendizaje por Refuerzo a partir de Retroalimentación Humana: las personas clasifican las salidas del modelo para entrenar un modelo de recompensa, que luego se usa para guiar al modelo hacia respuestas útiles y alineadas. Apréndelo: E.1 RLHF / post-entrenamiento →