Explicador en lenguaje claro
La IA multimodal, explicada
¿Cómo se convierten imágenes, audio y documentos en algo sobre lo que un modelo puede razonar?
Los modelos multimodales convierten cada entrada, texto, imagen, audio o una captura, en vectores dentro de un mismo espacio compartido, y luego razonan sobre todos juntos. Una imagen se corta en parches y cada parche se vuelve un vector, el mismo tipo de vector en que se convierte una palabra. Como viven en el mismo espacio, el modelo puede comparar una foto y un pie de imagen, responder una pregunta sobre un gráfico o describir lo que hay en una pantalla. Es la misma maquinaria que con el texto, apuntada a más tipos de entrada.
No te quedes en leerlo. Opera tú mismo el mecanismo en una lección interactiva corta.
Míralo funcionar: Más allá del texto: las imágenes también se vuelven tokens →Gratis, sin código, sin registro.
Lo que la gente entiende mal
- El modelo 've' como un ojo. Convierte los píxeles en vectores y razona sobre ellos, no sobre la imagen cruda.
- La visión es un modelo aparte añadido. Los modelos multimodales modernos comparten una representación entre entradas.
- Lee cualquier imagen a la perfección. La letra pequeña, los gráficos densos y los formatos raros aún lo confunden.
Dónde lo ves en productos reales
- Los asistentes responden preguntas sobre fotos, capturas y PDFs.
- La IA de documentos extrae datos de escaneos y formularios.
- Los agents de voz y los de uso del ordenador se apoyan en la comprensión multimodal.
Explicadores relacionados
Parte de See How AI Works, un curso interactivo gratuito, donde aprendes cómo funciona la IA moderna operándola, no viendo videos.