Explicadores de IA

Guías en lenguaje claro y con la respuesta primero sobre cómo funciona la IA moderna. Cada una responde la pregunta de entrada, nombra lo que la gente entiende mal y enlaza a una lección interactiva corta donde operas tú la idea.

How LLMs work¿Cómo funciona de verdad un modelo de lenguaje grande?Un modelo de lenguaje grande es un predictor de la siguiente palabra. Convierte tu texto en números, los pasa por miles de millones de pesos aprendidos y produce una probabilidad para cada token posible que podría venir. Elige uno, lo añade al texto y repite. No hay base de datos de hechos ni paso de búsqueda. La inteligencia es una muy buena conjetura estadística sobre qué viene después, aprendida de una enorme cantidad de texto. Todo lo demás, el chat, el código, los agents, se construye sobre ese único bucle.Leer el explicador →
Tokenization¿Qué es un token, y por qué la IA cuenta tokens en vez de palabras?Un token es un trozo de texto, a menudo un fragmento de palabra y no una palabra entera. Antes de leer tu texto, el modelo lo parte en tokens y asigna un número a cada uno. Los modelos cobran y presupuestan en tokens, no en palabras, porque los tokens son la unidad real que procesan. La misma idea puede costar más o menos según cómo se parta: las palabras comunes en inglés son un token, mientras que el código, las palabras raras y muchos idiomas no ingleses se rompen en más tokens por palabra.Leer el explicador →
Embeddings¿Qué es un embedding, y cómo captura el significado?Un embedding convierte un trozo de texto en una lista de números, un vector, colocado de forma que los significados parecidos queden cerca. El significado se vuelve geometría. Las palabras y frases que se usan de forma parecida terminan próximas, aunque no compartan ninguna palabra exacta. Eso es lo que permite que un buscador encuentre el artículo de ayuda correcto con otra redacción, y lo que permite que la recuperación traiga el documento relevante para una respuesta de IA. El modelo aprende estas posiciones a partir de cómo se usa el lenguaje de verdad.Leer el explicador →
Attention¿Qué hace el mecanismo de atención en un transformer?La atención permite que cada palabra mire a las demás palabras de la frase y decida cuáles importan para ella en ese momento. En 'el trofeo no cabía en la maleta porque era demasiado grande', la atención es lo que le dice al modelo que 'era' se refiere al trofeo. Cada posición reúne una mezcla ponderada de las otras, apoyándose más en las que encajan. Así maneja el modelo los pronombres, las referencias a distancia y la forma en que el significado de una palabra cambia con su contexto.Leer el explicador →
RAG¿Qué es la generación aumentada por recuperación (RAG)?RAG es la forma en que una IA responde a partir de tus documentos en vez de solo su entrenamiento. Cuando haces una pregunta, el sistema busca en tu contenido los pasajes más relevantes, los pega en el context del modelo y le pide que responda usándolos. El modelo nunca memorizó tus datos. Lee el texto recuperado en el momento de responder. Por eso RAG puede citar fuentes y mantenerse al día, y por eso casi todos los fallos de RAG son en realidad fallos de recuperación: si el pasaje correcto no se trajo, el modelo no puede usarlo.Leer el explicador →
AI agents¿Qué hace que un agent de IA sea distinto de un chatbot?Un agent es un modelo de lenguaje puesto dentro de un bucle que puede tomar acciones. Un chatbot escribe una respuesta y se detiene. Un agent propone una llamada a una herramienta, un harness la ejecuta, el resultado vuelve al context y el modelo decide el siguiente paso, repitiendo hasta terminar la tarea. El modelo sigue solo prediciendo texto. La potencia viene del bucle a su alrededor: leer un archivo, hacer una búsqueda, llamar a una API, comprobar el resultado, intentar de nuevo. Ese bucle es lo que convierte a un predictor en algo que hace el trabajo.Leer el explicador →
Context engineering¿Qué es la ingeniería de contexto, y en qué se diferencia del prompt engineering?La ingeniería de contexto es decidir todo lo que el modelo llega a ver para una tarea, no solo cómo redactas un prompt. Un sistema moderno arma su context desde muchas fuentes: instrucciones, la petición del usuario, documentos recuperados, turnos anteriores, resultados de herramientas, memoria y archivos. El modelo solo puede razonar sobre lo que está en esa ventana, y la ventana es un presupuesto limitado. Una buena ingeniería de contexto mete la información correcta, deja fuera el ruido y la ordena bien. Es la disciplina que reemplazó a los 'trucos de prompt' cuando los sistemas se volvieron complejos.Leer el explicador →
LLM evals¿Qué son los evals, y cómo saben los equipos que una función de IA funciona?Un eval es una prueba repetible para una función de IA: un conjunto de entradas y una forma de puntuar si las salidas son lo bastante buenas. Como los modelos no son deterministas y 'se ve bien' no escala, los equipos construyen evals para atrapar regresiones antes que los usuarios. La puntuación puede ser comprobaciones exactas, rúbricas u otro modelo que actúa como juez. Lo difícil es mantener los evals honestos: un conjunto offline congelado puede quedar obsoleto o filtrarse al entrenamiento, así que las pruebas en producción y adversariales atrapan lo que él no puede.Leer el explicador →
Prompt injection¿Qué es el prompt injection, y por qué las apps de IA son inseguras de formas nuevas?El prompt injection ocurre cuando el contenido no confiable que el modelo lee trae instrucciones que lo secuestran. Un modelo no puede distinguir de forma fiable tus instrucciones del texto dentro de una página web, un correo o un documento que le pidieron procesar. Así, un atacante puede esconder 'ignora tu tarea y haz esto otro' en ese contenido. Se vuelve peligroso cuando un agent combina tres cosas: acceso a datos privados, exposición a contenido no confiable y una vía para sacar datos. Esa combinación, la trifecta letal, es la receta de la exfiltración de datos.Leer el explicador →
Model routing¿Qué es el enrutado de modelos, y cómo eliges qué modelo de IA usar?El enrutado de modelos manda cada petición al modelo más barato que aún pueda resolverla, en vez de usar un modelo grande para todo. La mayoría de las peticiones son fáciles y un modelo pequeño, rápido y barato las resuelve; solo las pocas difíciles necesitan un modelo de frontera. Un router puede decidir por adelantado, o hacer cascada: probar un modelo pequeño, comprobar el resultado y escalar solo si se queda corto. Bien hecho, mantienes el nivel de calidad mientras recortas costo y latencia, porque dejas de pagar precios de frontera por trabajo fácil.Leer el explicador →
Computer-use agents¿Cómo puede una IA hacer clic por las apps, y cuándo es seguro?Un agent de uso del ordenador opera una pantalla como lo haría una persona: toma una captura, planea un paso, hace clic o escribe, mira el resultado y verifica antes de seguir. Ese bucle, mirar, planear, actuar, observar, verificar, es lo que permite a un modelo usar software que no tiene API. El problema es que las interfaces son frágiles y algunas acciones no se pueden deshacer. Por eso la verificación y la aprobación humana en los pasos arriesgados no son extras; son lo que separa a un agent útil de uno que hace clic con seguridad en el botón equivocado.Leer el explicador →
Multimodal AI¿Cómo se convierten imágenes, audio y documentos en algo sobre lo que un modelo puede razonar?Los modelos multimodales convierten cada entrada, texto, imagen, audio o una captura, en vectores dentro de un mismo espacio compartido, y luego razonan sobre todos juntos. Una imagen se corta en parches y cada parche se vuelve un vector, el mismo tipo de vector en que se convierte una palabra. Como viven en el mismo espacio, el modelo puede comparar una foto y un pie de imagen, responder una pregunta sobre un gráfico o describir lo que hay en una pantalla. Es la misma maquinaria que con el texto, apuntada a más tipos de entrada.Leer el explicador →