Investigadores de Microsoft dieron a conocer Kosmos-1, una herramienta de Inteligencia Artificial (IA) que es capaz de analizar imágenes en busca de contenido, resolver acertijos visuales, realizar reconocimiento de texto visual, aprobar pruebas de coeficiente intelectual visual y comprender instrucciones en lenguaje natural.
Los investigadores publicaron un documento sobre la investigación que realizan, en el que se pueden observar ejercicios en los que interactúan con la Inteligencia Artificial para preguntarle si reconoce determinadas imágenes.
El documento describe el desarrollo de Inteligencia Artificial General, que se refiere a la integración de diferentes fuentes de información como imágenes, video, audio, texto, por mencionar algunas, y que todas ellas sean reconocidas por la IA.
“La percepción multimodal es una necesidad para lograr la Inteligencia Artificial General, en términos de adquisición de conocimiento y conexión con el mundo real”, describen los investigadores en su publicación.
Por ejemplo, el documento incluye capturas de pantalla en donde se puede observar cómo los investigadores le dicen a la IA “explica por qué esta foto es divertida”, mientras le muestran un meme de un gato en el que un humano le tapa la boca con un post-it que tiene dibujada una sonrisa. A ello, la IA le contesta que “el gato está vistiendo una máscara que hace que sonría”.

Pero no es el único ejercicio, sino que la Inteligencia Artificial analiza imágenes cada vez más complejas y logra responder de manera correcta.
Tras varias pruebas y entrenamiento por parte de los investigadores hacia la IA, concluyeron que Kosmos-1 logró responder de manera acertada a acciones como la comprensión del idioma, la generación del idioma, la clasificación de texto sin reconocimiento óptico de caracteres, los subtítulos de imágenes, la respuesta visual a preguntas, la respuesta a preguntas de páginas web y la clasificación de imágenes.
Los científicos de Microsoft revelaron que incluso Kosmos-1 superó a los modelos actuales de última generación, por ejemplo ChatGPT, aunque no lo menciona en específico.
“Específicamente, entrenamos Kosmos-1 desde cero en corpus multimodales a escala web, incluidos texto e imágenes arbitrariamente intercalados, subtítulos de imágenes pares y datos de texto. Evaluamos varios ajustes, incluidos cero instrucciones, pocas instrucciones, y multimodal cadena de indicaciones de pensamiento, en una amplia gama de tareas. Los resultados experimentales muestran que Kosmos-1 logra un rendimiento impresionante en comprensión, generación”, afirman los científicos de Microsoft.