Saltar al contenido
Todos los explicadores

Explicador en lenguaje claro

Los evals de LLM, explicados

¿Qué son los evals, y cómo saben los equipos que una función de IA funciona?

Un eval es una prueba repetible para una función de IA: un conjunto de entradas y una forma de puntuar si las salidas son lo bastante buenas. Como los modelos no son deterministas y 'se ve bien' no escala, los equipos construyen evals para atrapar regresiones antes que los usuarios. La puntuación puede ser comprobaciones exactas, rúbricas u otro modelo que actúa como juez. Lo difícil es mantener los evals honestos: un conjunto offline congelado puede quedar obsoleto o filtrarse al entrenamiento, así que las pruebas en producción y adversariales atrapan lo que él no puede.

No te quedes en leerlo. Opera tú mismo el mecanismo en una lección interactiva corta.

Míralo funcionar: Evals: demostrar que funciona

Gratis, sin código, sin registro.

Lo que la gente entiende mal

  • Una puntuación offline alta significa que es seguro lanzar. El conjunto puede estar obsoleto o contaminado; vigila también el tráfico real.
  • Los evals son solo tests unitarios. Puntúan calidad difusa, a menudo con rúbricas o un modelo juez, no igualdad exacta.
  • Un modelo juez es imparcial. Los jueces tienen sesgos y necesitan calibrarse contra valoraciones humanas.

Dónde lo ves en productos reales

  • Los equipos condicionan los lanzamientos a una suite de evals, como los tests en CI.
  • Los evals online puntúan una muestra del tráfico real tras el lanzamiento.
  • Los evals de red-team buscan fallos y prompt injection antes de que los encuentren los usuarios.

Explicadores relacionados

Parte de See How AI Works, un curso interactivo gratuito, donde aprendes cómo funciona la IA moderna operándola, no viendo videos.