¿Qué es el prompt injection, y por qué las apps de IA son inseguras de formas nuevas?

Question

Accepted Answer

El prompt injection ocurre cuando el contenido no confiable que el modelo lee trae instrucciones que lo secuestran. Un modelo no puede distinguir de forma fiable tus instrucciones del texto dentro de una página web, un correo o un documento que le pidieron procesar. Así, un atacante puede esconder 'ignora tu tarea y haz esto otro' en ese contenido. Se vuelve peligroso cuando un agent combina tres cosas: acceso a datos privados, exposición a contenido no confiable y una vía para sacar datos. Esa combinación, la trifecta letal, es la receta de la exfiltración de datos.

El prompt injection, explicado

Lo que la gente entiende mal

Dónde lo ves en productos reales

Explicadores relacionados