Meta presentó ImageBind, un enfoque de Inteligencia Artificial (IA) que lleva a las máquinas un paso más cerca de la capacidad multisensorial de los seres humanos para aprender de forma simultánea, holística y directa muchas formas diferentes de información, sin necesidad de supervisión explícita.
La compañía aseguró que ImageBind es el primer modelo de IA capaz de vincular información de seis modalidades: texto, imagen/video, audio, medición de profundidad (3D), de temperatura (radiación infrarroja) y mediciones inerciales (IMU), las cuales calculan el movimiento y la posición.
ImageBind equipa a las máquinas con una comprensión holística que conecta los objetos en una foto con cómo sonarán, su forma 3D, qué tan cálidos o fríos están y cómo se mueven.
Relacionado: Microsoft presenta Inteligencia Artificial para imágenes
De acuerdo con Meta, ImageBind supera a los modelos especializados anteriores, los cuales estaban entrenados individualmente para una modalidad en particular, y lo más importante es que ayuda a avanzar en la Inteligencia Artificial al permitir que las máquinas analicen mejor muchas formas diferentes de información juntas.
Así, desarrollará exponencialmente la Inteligencia Artificial Generativa, ya que, según la empresa, al usar ImageBind, Make-A-Scene será capaz de crear imágenes a partir de un audio, como una imagen basada en los sonidos de una selva tropical o un mercado bullicioso.
Mientras que otras posibilidades futuras incluyen formas más precisas de reconocer, conectar y moderar contenido, impulsar el diseño creativo, así como generar medios más ricos de manera más fluida y funciones de búsqueda multimodal más amplias.
ImageBind es parte de los esfuerzos de Meta por crear sistemas de IA multimodales que aprenden de todos los tipos de datos posibles a su alrededor y representa un paso importante hacia la construcción de máquinas que puedan analizar diferentes tipos de datos de manera integral, como lo hacen los humanos.
A medida que aumenta el número de modalidades, ImageBind abre las compuertas para que los investigadores intenten desarrollar nuevos sistemas holísticos, como la combinación de sensores 3D e IMU para diseñar o experimentar mundos virtuales inmersivos.
ImageBind también podría proporcionar una forma rica de explorar recuerdos: buscar imágenes, videos, archivos de audio o mensajes de texto a través de una combinación de texto, audio e imágenes.