¿Cómo se convierten imágenes, audio y documentos en algo sobre lo que un modelo puede razonar?

Question

Accepted Answer

Los modelos multimodales convierten cada entrada, texto, imagen, audio o una captura, en vectores dentro de un mismo espacio compartido, y luego razonan sobre todos juntos. Una imagen se corta en parches y cada parche se vuelve un vector, el mismo tipo de vector en que se convierte una palabra. Como viven en el mismo espacio, el modelo puede comparar una foto y un pie de imagen, responder una pregunta sobre un gráfico o describir lo que hay en una pantalla. Es la misma maquinaria que con el texto, apuntada a más tipos de entrada.

La IA multimodal, explicada

Lo que la gente entiende mal

Dónde lo ves en productos reales

Explicadores relacionados