Saltar al contenido
Todos los explicadores

Explicador en lenguaje claro

El prompt injection, explicado

¿Qué es el prompt injection, y por qué las apps de IA son inseguras de formas nuevas?

El prompt injection ocurre cuando el contenido no confiable que el modelo lee trae instrucciones que lo secuestran. Un modelo no puede distinguir de forma fiable tus instrucciones del texto dentro de una página web, un correo o un documento que le pidieron procesar. Así, un atacante puede esconder 'ignora tu tarea y haz esto otro' en ese contenido. Se vuelve peligroso cuando un agent combina tres cosas: acceso a datos privados, exposición a contenido no confiable y una vía para sacar datos. Esa combinación, la trifecta letal, es la receta de la exfiltración de datos.

No te quedes en leerlo. Opera tú mismo el mecanismo en una lección interactiva corta.

Míralo funcionar: La tríada letal

Gratis, sin código, sin registro.

Lo que la gente entiende mal

  • Más entrenamiento lo arregla. Los modelos siguen sin separar bien instrucciones de datos; se diseña alrededor del problema.
  • Solo importa en los chatbots. Es peor en los agents que pueden leer contenido no confiable y actuar.
  • Filtrar la entrada lo resuelve. Ayuda, pero el arreglo duradero es limitar el acceso, las acciones y las salidas.

Dónde lo ves en productos reales

  • Un agent que lee correo y puede enviarlo es un objetivo clásico de injection.
  • Las herramientas de navegación y de documentos deben tratar el contenido traído como no confiable.
  • Los diseños seguros acotan credenciales, ponen aprobación a las acciones arriesgadas y registran todo.

Explicadores relacionados

Parte de See How AI Works, un curso interactivo gratuito, donde aprendes cómo funciona la IA moderna operándola, no viendo videos.