Mientras que la Inteligencia Artificial (IA) Generativa y Agéntica dominan las tareas y flujos de trabajo del mundo virtual, la industria tecnológica ahora busca extender los beneficios de la automatización hacia el mundo físico al integrar la IA en dispositivos como robots, automóviles, cámaras, sensores y otros. Sin embargo, no se trata sólo de robots entrenados en tareas repetitivas, sino de amplios sistemas con la capacidad de entender y actuar en el mundo físico sin supervisión humana.
La IA Física (Physical AI) es un término acuñado inicialmente por Nvidia para referirse a los sistemas autónomos que tendrán la capacidad de percibir, entender, razonar y ejecutar acciones complejas en el mundo físico, ya sean automóviles, robots, cámaras o cualquier otro dispositivo electrónico con capacidad de actuar en el mundo real.
“La IA Física amplía la IA Generativa actual con una comprensión de las relaciones espaciales y el comportamiento físico del mundo 3D en el que todos vivimos. Toma entradas multimodales, como imágenes, videos, texto, voz o datos de sensores del mundo real, y los convierte en información o acciones que una máquina autónoma puede ejecutar”, según explica la compañía en su blog.
Aunque hay quienes consideran que se trata de un nuevo término mercadológico de Nvidia para referirse al concepto más tradicional de robótica, existen diferencias entre ambos: la robótica se trata del campo enfocado en las máquinas y mecanismos que componen los robots, y la IA Física se refiere principalmente a los sistemas que permiten percibir el mundo físico y tomar acción de forma autónoma.
Al mismo tiempo, mientras se discuten términos alternativos como “robótica con IA”, el concepto introducido por Nvidia pretende definir los sistemas que permiten a todo tipo de máquinas interactuar con el mundo físico de forma completamente autónoma. Ya no se trata sólo de entrenar máquinas en tareas automatizadas y confinadas a un espacio delimitado, sino de sistemas que perciben el mundo físico, aprenden de su experiencia, y se adaptan con datos en tiempo real.
Es decir, máquinas entrenadas para tareas repetitivas pero con la capacidad de razonar frente a los eventos aleatorios de la vida real, por ejemplo, un coche autónomo entrenado en tareas como obedecer señalamientos de tránsito, con la capacidad de esquivar obstáculos desconocidos –o para los que no fue entrenado– en el camino y actuar de forma adecuada ante la impredictibilidad.
A esta evolución de la automatización se le conoce también como robótica basada en el contexto (context-based robotics), los cuales están equipados con herramientas para percibir el mundo físico, desde cámaras a sensores táctiles, que les permite ver e interpretar el ambiente en tiempo real. Pero no es sólo su capacidad de percibir el mundo, sino cómo procesan y responden a tareas poco conocidas, lo que marca una verdadera evolución respecto a sistemas previos de automatización, explica un texto del Foro Económico Mundial (WEF).
Durante su más reciente conferencia en el pasado CES de Las Vegas, Jensen Huang, CEO de Nvidia, explicó que la cuestión se centra en cómo habilitar un sistema inteligente que actualmente habita en una computadora, para interactuar con entendimiento del sentido común del mundo real; por ejemplo, la permanencia de los objetos aunque se dejen de observar, la causalidad cuando se empuja un objeto y cae por un borde, o la inercia y momentum de un vehículo de grandes dimensiones.
En ese sentido, la IA Física no se limita a una sola máquina o dispositivo, sino que se trata de la convergencia y trabajo conjunto de múltiples tecnologías como sensores, Edge, robots, y tecnologías de simulación que permitirán la programación de operaciones autónomas.
“En la emergente pero en rápida evolución categoría de robots, la IA Física los convierte en máquinas adaptativas y de aprendizaje capaces de operar en entornos complejos e impredecibles. La combinación de IA, movilidad y autonomía física permite a los robots desplazarse por entornos, realizar tareas e interactuar con el mundo de formas fundamentalmente diferentes a las de los electrodomésticos mejorados”, señala la consultora Deloitte.
Conforme se adoptan nuevas tecnologías como el Edge o modelos más sofisticados para recrear situaciones del mundo real hasta modelos que permitan razonar sobre esos datos, la adopción de la IA Física implica una progresión de distintos niveles de automatización hasta llegar a la completa autonomía. Amazon Web Services (AWS) propone cuatro niveles para evaluar el estado actual de sistemas autónomos de IA Física:
- Nivel 1: Automatización Física Básica: esta etapa fundamental implica sistemas que realizan tareas predefinidas en entornos estrictamente controlados.
- Nivel 2: Automatización Física Adaptativa: en esta etapa, los sistemas adquieren flexibilidad en la secuenciación de tareas. Si bien las acciones individuales aún están preprogramadas, pueden ajustar su orden en función de las señales ambientales en tiempo real.
- Nivel 3: IA Física Parcialmente Autónoma: en este nivel, los sistemas demuestran un comportamiento inteligente, que incluye la planificación, ejecución y adaptación de tareas con intervención humana limitada.
- Nivel 4: IA Física Totalmente Autónoma: el nivel más avanzado incluye sistemas capaces de operar en diversos dominios con mínima supervisión. Estos sistemas se adaptan con fluidez a nuevos escenarios y cambios ambientales.
Desafíos: cómputo, datos y modelos
Desde hace un par de años, Yan LeCun, antiguo científico jefe de Meta, había advertido que los actuales modelos grandes de lenguaje (LLM) detrás de soluciones de IA Generativa estarían limitados para enfrentar los retos que implica la creación de robots verdaderamente autónomos.
Aunque sin referirse propiamente al concepto de IA Física, el científico apunta que en la evolución desde los LLM a sistemas inteligentes hay cuatro elementos clave requeridos para estas nuevas arquitecturas que no son posibles con la tecnología actual: entender el mundo real, contar con memoria persistente, razonamiento, y planeación compleja.
En una entrevista reciente con el MIT Review, LeCun consideró que el verdadero futuro de la IA no se encuentra en LLMs cada vez más grandes, sino en modelos que puedan entender el mundo real, con sus leyes físicas y las consecuencias de cada acto, y den a dispositivos como robots o automóviles la capacidad de percibir y navegar en el mundo físico.
El científico desarrolló su propia propuesta conocida como Arquitectura JEPA (arquitectura predictiva de integración conjunta, por sus siglas en inglés), que pretende funcionar como una plataforma de aprendizaje del mundo para sistemas inteligentes. Básicamente, darles la capacidad de entender fenómenos del mundo como lo haría un niño pequeño mediante la observación.
Aunque actualmente nos parece fascinante el hiperrealismo de las imágenes y videos generados por IA, la realidad es que esta tecnología carece de las capacidades para entender los cientos o miles de factores que interactúan en el mundo físico con la velocidad que demanda el tiempo real.
En ese sentido, actualmente la industria tecnológica se encuentra en la formación de nuevos paradigmas que permitan el entrenamiento de sistemas autónomos capaces de entender y razonar respecto a los múltiples factores que conlleva completar una tarea en el mundo real, como lo es la conducción de un automóvil donde intervienen decenas de factores impredecibles al mismo tiempo.
Es ahí donde se encuentra una de las limitantes a resolver. Mientras que los LLM pudieron ser entrenados con miles de millones de datos provenientes de libros, sonidos o películas, suficientes para crear algún resultado de texto, imagen o sonido, este enfoque sería insuficiente para entrenar un modelo que pueda estar preparado para responder adecuadamente a los miles de escenarios posibles que se pueden presentar en una ciudad o en una línea de producción.
Durante el CES, Huang apuntó que sería imposible entrenar a un modelo de IA Física con cientos de miles de videos, por lo que el enfoque de Nvidia se basa en la generación de datos sintéticos, sujetos y condicionados a las leyes de la física, reduciendo los costos y tiempos de entrenamiento. Asimismo, en lugar de resolver escenarios excesivamente complejos, los modelos son entrenados sobre casos más pequeños que facilitan los procesos de razonamiento y habilitan una reacción rápida.
Adicionalmente, para el procesamiento de esta enorme cantidad de datos, se requerirá en consecuencia una importante capacidad de cómputo. Huang estima que la IA Física implica el uso de tres sistemas de cómputo: una para entrenar los modelos, una más para la inferencia en el Edge o directamente en los robots, y una más encargada de la simulación, y que se convierte en la base de toda la IA Física.
Robots humanoides
El caso más llamativo y quizás el más esperado por los usuarios, son los robots humanoides, que como es de esperar, llegan al mercado con múltiples promesas sobre los beneficios potenciales de su uso en áreas como manufactura, salud o zonas impactadas por desastres naturales o conflictos armados. Su aplicación en algunos de estos escenarios para la ejecución de tareas de forma autónoma podría llevar a mayores eficiencias o incluso reducir ciertos riesgos para los humanos.
Durante el pasado CES, Boston Dynamics –cuyos videos de robots bailando son al mismo tiempo fascinantes y un tanto inquietantes– presentó por primera vez su robot Atlas que, entre sus características principales, cuentan con movimientos 360 en todas sus articulaciones, lo que según la empresa le confiere una mayor eficiencia respecto a los humanos para moverse dentro de áreas de manufactura.
Siendo la versión más avanzada presentada hasta ahora por la compañía, el robot cuenta con 56 grados de libertad de movimiento, manos a escala humanas equipadas con sensores de tacto, resistencia al agua y con capacidad de trabajar en temperaturas de entre -20 a 40 grados centígrados.
Boston Dynamics afirma que una versión de Atlas ya está en producción para ser utilizada en la línea de ensamblaje de automóviles de Hyundai en el estado de Georgia, en Estados Unidos. De acuerdo con la compañía, Atlas aprende nuevas tareas rápidamente, se adapta a entornos dinámicos y trabaja de forma autónoma con una supervisión mínima, además de contar con un sistema de inteligencia compartida que permite su despliegue a escala.