Memoria del curso

Tu capa de memoria para todo el curso: cada término en lenguaje sencillo, enlazado a la lección donde lo viste funcionar, conectado con ideas relacionadas y listo para repasar. Recordar supera a releer.

53 términos

Fundamentos: cómo funcionan los LLM (18)

Atencióntambién: autoatención, mecanismo de atención: El mecanismo que permite a cada token mirar a los demás tokens e incorporar los que son relevantes para su significado. Es la idea central del transformer.
Máscara causaltambién: enmascaramiento causal, atención enmascarada: Una regla que impide que un token preste atención a tokens futuros durante el entrenamiento, de modo que el modelo aprenda a predecir y no a espiar lo que viene.
Producto escalar / similitud del cosenotambién: similitud del coseno, producto escalar: Una forma de medir cuán alineados están dos vectores multiplicando los números que se corresponden y sumándolos. Así es como un modelo mide la similitud de significado, y reaparece en la atención y en RAG.
Embeddingtambién: embedding de palabra, embeddings, vector de palabra: Una lista de números (un vector) que representa el significado de una palabra como una posición en el espacio, de modo que las palabras similares quedan cerca y una máquina puede hacer cálculos sobre el significado.
Descenso de gradiente: El método de entrenamiento: ajustar un poco cada parámetro en la dirección que reduce la pérdida, una y otra vez, como rodar cuesta abajo por la superficie de la pérdida.
Normalización de capatambién: layernorm, normalización: Un paso que reescala un vector de vuelta a un rango estable a medida que pasa por cada capa, evitando que los valores se disparen o se desvanezcan en redes profundas.
Pérdidatambién: pérdida de entrenamiento, entropía cruzada: Un único número que mide cuánto le sorprendió al modelo la palabra siguiente correcta. Cuanto más baja, mejor; entrenar es la búsqueda de una pérdida menor.
Atención multicabezatambién: cabezales de atención: Ejecutar varios patrones de atención en paralelo, cada uno libre de seguir una relación distinta (gramática, referencia, …), y luego combinarlos.
Multimodal modeltambién: modelo de visión-lenguaje, VLM: Un modelo que maneja más que texto: las imágenes se cortan en patches y el audio en fragmentos, cada uno convertido en un vector en el mismo espacio que los tokens de texto, para que un transformer los atienda juntos.
Modelo de n-gramastambién: bigrama, n-grama: Un predictor sencillo que adivina la siguiente palabra a partir de la anterior o de unas pocas palabras previas. Muestra por qué una ventana de contexto fija y diminuta no es suficiente.
Parámetro / pesotambién: pesos, parámetros: Uno de los números aprendidos del modelo. Los modelos de frontera tienen miles de millones; entrenar es el proceso de ajustarlos para que mejoren las predicciones.
Consulta, Clave, Valor (Q/K/V)también: consulta clave valor, qkv: Tres vectores que produce cada token. La Consulta (Query) de un token se compara con cada Clave (Key), mediante el producto escalar, para decidir cuánto de cada Valor (Value) mezclar.
Conexión residualtambién: conexión de salto: Un atajo que suma la entrada de una capa a su salida, de modo que la señal original sobreviva a través de una pila profunda y la red siga siendo entrenable.
Softmax: Una función que convierte puntuaciones en bruto en un conjunto de pesos que suman 1, es decir, una distribución de probabilidad. La atención la usa para transformar las puntuaciones de coincidencia en una mezcla.
Tokentambién: tokens, tokenización: La unidad que un modelo de lenguaje lee y escribe, normalmente una palabra o un fragmento de palabra. El texto se divide en tokens, y el modelo solo predice el siguiente.
Tokenization (BPE)también: BPE, byte-pair encoding, tokens: Dividir el texto en tokens, trozos de sub-palabra comunes de un vocabulario fijo que aprende un algoritmo como Byte-Pair Encoding. El modelo lee ids de token, no letras, por eso cuenta mal los caracteres y cobra por token.
Bloque transformertambién: transformer, arquitectura transformer: La unidad que se repite en un LLM moderno: atención + una capa feed-forward, envuelta en conexiones residuales y normalización. Apila muchos y tienes el modelo.
Vector: Una lista ordenada de números. En un LLM, las palabras, las posiciones y los estados internos son todos vectores, y eso es lo que permite al modelo calcular con ellos.

Escalado y hardware (13)

Chain of thoughttambién: razonamiento, razonamiento, CoT: Tokens que un modelo genera para 'razonar' antes de su respuesta final. Los modelos de razonamiento se entrenan para hacer esto; el pensar son solo más tokens generados antes de responder.
Ventana de contexto: El número máximo de tokens al que un modelo puede prestar atención a la vez. Todo lo que queda fuera es invisible para el modelo en esa llamada.
Distillationtambién: destilación de conocimiento, maestro-estudiante: Entrenar un modelo 'estudiante' pequeño para imitar a un 'maestro' grande, de modo que conserve casi toda la habilidad a una fracción del tamaño y el costo. La mayoría de los modelos pequeños y rápidos que usas están destilados.
GPUtambién: unidad de procesamiento gráfico: Un procesador con miles de núcleos en paralelo. Las multiplicaciones de matrices dentro de un LLM son masivamente paralelas, así que el hardware ancho de una GPU las ejecuta mucho más rápido que una CPU.
Caché KVtambién: caché clave-valor: Un truco de velocidad que almacena las Claves y los Valores ya calculados para los tokens anteriores, de modo que generar cada nuevo token los reutilice en lugar de recalcularlos.
Mezcla de Expertos (MoE)también: MoE, expertos: Una arquitectura en la que un enrutador envía cada token a unas pocas subredes especializadas (expertos), de modo que el modelo almacena mucho conocimiento pero solo ejecuta una porción por token.
Codificación posicionaltambién: embedding posicional, RoPE: Información que se añade a cada token para que el modelo conozca el orden de las palabras, porque la atención por sí sola es ciega al orden.
Cuantización: Almacenar los pesos de un modelo con menos bits de precisión para reducir la memoria y acelerar el servicio, a un coste pequeño y por lo general aceptable en calidad.
Leyes de escaladotambién: escalado Chinchilla: El hallazgo empírico de que la pérdida disminuye de forma predecible a medida que añades parámetros, datos y cómputo. Pronostican la pérdida, no qué habilidades concretas emergerán.
Speculative decodingtambién: redactar y verificar: Una aceleración donde un modelo pequeño y rápido redacta varios tokens por adelantado y el modelo grande los verifica de una pasada, conservando el prefijo en que coinciden, la misma salida, menos pasos lentos.
Temperatura: Una perilla de decodificación para la aleatoriedad. Cerca de 0, el modelo elige siempre la palabra más probable (determinista); con valores más altos, muestrea de forma más creativa.
Test-time computetambién: cómputo en tiempo de inferencia, presupuesto de razonamiento: Gastar más cómputo por pregunta en la inferencia, pensar más, o muestrear muchas respuestas y elegir la mejor, para subir la precisión. Una tercera forma de escalar la capacidad, más allá de los parámetros y los datos de entrenamiento.
Muestreo top-k / top-ptambién: muestreo por núcleo, top-p, top-k: Formas de elegir la siguiente palabra solo entre los candidatos más probables: los k mejores (top-k) o el conjunto más pequeño que cubre una probabilidad p (top-p / núcleo).

Sistemas de IA y agentes (12)

Agentetambién: agente de IA, uso de herramientas: Un bucle alrededor de un modelo: propone una acción, se ejecuta una herramienta, el resultado vuelve a entrar en el contexto y se repite, convirtiendo un predictor de un solo paso en algo que puede actuar.
Autonomy levelstambién: humano en el bucle: Cuánto hace un agente por su cuenta, desde sugerir, hasta preguntar antes de cada paso, hasta encargarse de una tarea entera. Más no es mejor: ajústalo a qué tan bien acotada está la tarea y qué tan fácil puedes verificar el resultado.
Context rottambién: lost in the middle: La tendencia medida de que la precisión de todo modelo se degrada a medida que se llena el context window, incluso en tareas fáciles. Un prompt corto y enfocado suele ganarle a la misma respuesta enterrada en uno enorme, así que curar el contexto le gana a abarrotarlo.
Alucinacióntambién: confabulación: Cuando un modelo afirma algo falso con seguridad. Ocurre porque el modelo se optimiza para generar texto que suene plausible, no para producir verdades verificadas.
Harnesstambién: agent harness, agente de programación: El programa que envuelve a un modelo y le permite actuar: hace un bucle, lee el context window, deja que el modelo proponga una llamada a una herramienta, ejecuta la herramienta y le devuelve el resultado, hasta terminar la tarea. Claude Code, Codex y Cursor son harnesses.
MCP (Model Context Protocol)también: Model Context Protocol: Un estándar abierto para conectar un modelo/harness a herramientas y fuentes de datos externas (archivos, APIs, bases de datos) de forma uniforme, lo conectas una vez y lo usas desde cualquier herramienta compatible con MCP. Convierte N×M integraciones a medida en N+M.
Multi-agent (orchestrator & subagents)también: subagente, orquestador, enjambre de agentes: Repartir un trabajo entre agentes: un orquestador delega subtareas a subagentes, cada uno con su propio contexto limpio, a menudo en paralelo. Potente para búsquedas amplias, pero multiplica el costo y puede fragmentarse.
Prompt cachingtambién: caching de prefijo: Reutilizar la forma ya procesada de un prefijo de prompt estable para no pagar el precio completo al reenviarlo. Una lectura de cache cuesta cerca del 10% de un token de entrada normal; solo acierta si el prefijo no cambió, así que pon primero el contenido estable.
ReActtambién: razonar y actuar, agent loop: El patrón del bucle del agente razonar → actuar → observar: en cada turno el modelo escribe un pensamiento privado, toma una acción (una llamada a herramienta) y luego lee el resultado, intercalando pensar y actuar en vez de responder de una sola vez.
Generación Aumentada por Recuperación (RAG)también: RAG, generación aumentada por recuperación: Dar a un modelo congelado conocimiento nuevo o privado buscando en tus documentos los fragmentos más relevantes (usando similitud) y pegándolos en su contexto.
Skilltambién: skill de agente, divulgación progresiva: Un paquete de experiencia que el agente carga bajo demanda: solo su descripción de una línea está en contexto hasta que es relevante, y entonces se cargan sus instrucciones completas (divulgación progresiva), capacidad sin un costo permanente de contexto.
System prompttambién: mensaje de sistema: Las instrucciones fijas que van justo al inicio del context window, quién es el asistente, sus reglas y herramientas. Se envía cada turno, por eso es la candidata ideal para el prompt caching.

Producción, evals y seguridad (8)

Data flywheeltambién: bucle de retroalimentación: El bucle que se retroalimenta: el tráfico de producción se registra, los casos difíciles se curan y etiquetan, vuelven a las evals y al entrenamiento, y producen un mejor modelo y más uso. Los datos propios de producción se vuelven el foso defensivo.
Evaltambién: evaluación, conjunto de evals: Un conjunto de pruebas para una app de LLM, entradas emparejadas con respuestas esperadas o criterios de puntuación, que se puntúa en cada cambio para que publiques mejoras, no regresiones. Como pruebas unitarias para prompts.
Ground truthtambién: datos etiquetados, conjunto gold, etiquetado de datos: Las 'respuestas correctas' verificadas contra las que se juzga un dataset, construidas por personas con guías claras, varios etiquetadores y comprobaciones de acuerdo. Las evals y el entrenamiento valen lo que vale su ground truth.
Lethal trifectatambién: exfiltración de datos: La combinación peligrosa de que un agente tenga acceso a datos privados, exposición a contenido no confiable y una forma de enviar datos hacia afuera, juntas permiten la exfiltración de datos vía prompt injection. Quita cualquiera de las tres patas para desactivarla.
LLM-as-a-judgetambién: eval calificada por un modelo: Usar un modelo fuerte para calificar salidas a escala contra una guía de puntuación (puntuación individual o comparaciones por pares). Escalable, pero propenso a sesgos (posición, verbosidad, autopreferencia), calíbralo contra etiquetas humanas.
Observabilitytambién: trazado, monitoreo: Ver por dentro una app de LLM en producción: trazar cada petición (recuperación, prompt, modelo, herramientas) y registrar entradas, salidas, tokens, latencia, costo, errores y feedback de los usuarios. No puedes arreglar lo que no puedes ver.
Prompt injectiontambién: jailbreak, guardrails: Un ataque donde el contenido no confiable que el modelo lee se trata como nuevas instrucciones (el modelo ve instrucciones y datos por un mismo canal). El riesgo de seguridad #1 en LLM y no del todo resoluble, los guardrails lo reducen, no lo eliminan.
Structured outputstambién: decodificación restringida, modo JSON: Restringir la salida de un modelo a un schema (p. ej. JSON) permitiendo solo tokens siguientes válidos según el schema, para que siempre parsee. Una forma válida no es lo mismo que un valor correcto, así que valida también el contenido.

Profundizaciones e IA actual (2)

Ajuste fino (fine-tuning)también: LoRA, adaptador: Seguir entrenando un modelo preentrenado con datos adicionales para especializarlo, frente al prompting, que cambia el comportamiento solo con instrucciones. LoRA lo hace de forma económica con pequeños pesos de adaptador.
RLHFtambién: aprendizaje por refuerzo a partir de retroalimentación humana, postentrenamiento: Aprendizaje por Refuerzo a partir de Retroalimentación Humana: las personas clasifican las salidas del modelo para entrenar un modelo de recompensa, que luego se usa para guiar al modelo hacia respuestas útiles y alineadas.