Robot juega laberinto de canicas con mayor precisión que una persona
El robot incluso encontró formas de “hacer trampa”, por lo que los investigadores tuvieron que pedirle no tomar esos ‘atajos’.
Investigadores de la Escuela Politécnica Federal de Zúrich (ETH Zurich) crearon CyberRunner, un robot de Inteligencia Artificial (IA) que aprende a jugar el laberinto de canicas gracias a una técnica llamada aprendizaje por refuerzo profundo, el cual le permite a la tecnología llevar su aprendizaje digital a entornos físicos.
El laberinto de canicas es un juego de habilidad física cuyo objetivo es conducir una canica desde un punto inicial hasta un punto final. Al hacerlo, el jugador debe evitar que la bola caiga en cualquiera de los agujeros que hay en el tablero. El movimiento de la pelota depende del movimiento del tablero que se da por dos botones que cambian su orientación, lo que requiere altas habilidades de motricidad fina y razonamiento espacial, aptitudes que incorpora CyberRunner por medio de la IA.
El aprendizaje por refuerzo está basado en modelos del mundo físico y aprende por medio de las experiencias, lo que permite que el robot explote su capacidad para tomar decisiones informadas sobre comportamientos potencialmente exitosos mediante la planificación de decisiones y acciones del mundo real en el futuro.
Digital X Files | De la sociedad del conocimiento al desplazamiento laboral
Mientras CyberRunner juega, captura información y recibe recompensas basadas en su desempeño, todo a través de los “ojos” de una cámara que mira hacia el laberinto. El robot guarda un recuerdo de la experiencia recogida para saber cómo actuar en un próximo juego.
Utilizando esta memoria, el algoritmo de aprendizaje por refuerzo aprende cómo se comporta el sistema y, en función de su comprensión del juego, reconoce qué estrategias y comportamientos son más prometedores. En consecuencia, se mejora continuamente la forma en la que el robot utiliza los dos motores, que funcionan como ‘manos’.
A su vez, el algoritmo se ejecuta simultáneamente con el robot que juega. Como resultado, CyberRunner sigue mejorando en cada ejecución.
El juego del laberinto entre CyberRunner y humanos
El aprendizaje en el laberinto toma unas 6.06 horas para los seres humanos. En total comprende 1.2 millones de pasos a una velocidad de control de 55 muestras por segundo.
CyberRunner superó en un 6 por ciento ese tiempo de registro. Además, encontró formas de “hacer trampa” saltándose ciertas partes del laberinto, por lo que los investigadores tuvieron que pedirle no tomar esos ‘atajos’.
“Creemos que este es el banco de pruebas ideal para la investigación en aprendizaje automático e IA en el mundo real. Antes de CyberRunner, sólo las organizaciones con grandes presupuestos e infraestructura experimental personalizada podían realizar investigaciones en esta área. Ahora, por menos de 200 dólares, cualquier persona puede participar en investigaciones de IA de vanguardia. Además, una vez que miles de CyberRunners estén en el mundo real, será posible participar en experimentos a gran escala, donde se produzcan más aprendizajes”, comentó Raffaello D’Andrea, profesor de sistemas dinámicos y control en ETH Zurich.