¿Qué son los evals, y cómo saben los equipos que una función de IA funciona?

Question

Accepted Answer

Un eval es una prueba repetible para una función de IA: un conjunto de entradas y una forma de puntuar si las salidas son lo bastante buenas. Como los modelos no son deterministas y 'se ve bien' no escala, los equipos construyen evals para atrapar regresiones antes que los usuarios. La puntuación puede ser comprobaciones exactas, rúbricas u otro modelo que actúa como juez. Lo difícil es mantener los evals honestos: un conjunto offline congelado puede quedar obsoleto o filtrarse al entrenamiento, así que las pruebas en producción y adversariales atrapan lo que él no puede.

Los evals de LLM, explicados

Lo que la gente entiende mal

Dónde lo ves en productos reales

Explicadores relacionados