OpenAI lanza un sistema inteligente que puede hacer tareas por los usuarios

Este lanzamiento marca uno de los primeros pasos en la evolución de los agentes de OpenAI, diseñados para ejecutar tareas de manera autónoma.

Imagen: OpenAI

OpenAI lanzó Operator, un agente de Inteligencia Artificial (IA) que puede navegar por la web y realizar tareas por los usuarios.

La compañía explicó que Operator puede examinar páginas web e interactuar con ellas mediante escritura, clics y desplazamientos. Actualmente se encuentra en una fase previa de investigación, lo que significa que tiene ciertas limitaciones y se irá perfeccionando con el feedback de los usuarios.

Este lanzamiento marca uno de los primeros pasos en la evolución de los agentes de OpenAI, diseñados para ejecutar tareas de manera autónoma.

Operator es capaz de manejar una amplia gama de tareas repetitivas en el navegador, como completar formularios, ordenar productos y hasta crear memes. La capacidad de utilizar las mismas interfaces y herramientas que los humanos emplean diariamente aumenta la utilidad de la Inteligencia Artificial, permitiendo a las personas ahorrar tiempo en tareas cotidianas y ofreciendo nuevas oportunidades de interacción para las empresas, dijo OpenAI.

dplnews operator mc270125
Imagen: OpenAI

Para asegurar un despliegue seguro y progresivo, OpenAI ha decidido comenzar de manera limitada. Operator ya está disponible para usuarios Pro en Estados Unidos a través de la plataforma operator.chatgpt.com.

Esta fase de investigación permitirá a OpenAI aprender de sus usuarios y del ecosistema en general, refinando y mejorando el servicio conforme avanza. El plan, señalaron, es expandir la disponibilidad a los usuarios de Plus, Team y Enterprise e integrar estas capacidades en ChatGPT en el futuro.

¿Cómo funciona Operator de OpenAI?

Operator está impulsado por un nuevo modelo llamado Agente de Uso de Computadora (CUA, por sus siglas en inglés). Combinando las capacidades de visión de GPT-4o con un avanzado razonamiento mediante aprendizaje por refuerzo, CUA está entrenado para interactuar con interfaces gráficas de usuario (GUI), como botones, menús y campos de texto que aparecen en pantalla.

Gracias a la capacidad de “ver” a través de capturas de pantalla e “interactuar” usando acciones de mouse y teclado, Operator puede ejecutar tareas en la web sin necesidad de integraciones de API personalizadas.

En caso de encontrar desafíos o cometer errores, Operator puede autocorregirse utilizando sus capacidades de razonamiento. Cuando se encuentra en situaciones complejas que requieren intervención humana, devuelve el control al usuario, garantizando una experiencia colaborativa y fluida.

Aunque CUA está en sus primeras etapas y tiene limitaciones, ya ha establecido nuevos estándares en puntos de referencia clave como WebArena y WebVoyager. Para más información sobre las evaluaciones y la investigación detrás de Operator, OpenAI invita a consultar su blog de investigación.

Cómo utilizar Operator

  1. Para comenzar a usar Operator, los usuarios sólo deben describir la tarea que desean realizar y Operator se encargará del resto.
  2. Los usuarios pueden tomar el control del navegador remoto en cualquier momento y Operator está entrenado para solicitar la intervención del usuario en tareas que requieran inicio de sesión, detalles de pago o resolución de CAPTCHAs.
  3. Los usuarios también pueden personalizar sus flujos de trabajo en Operator añadiendo instrucciones específicas para todos los sitios o para sitios determinados, como establecer preferencias para aerolíneas en Booking.com.
  4. Operator permite guardar comandos para un acceso rápido desde la página de inicio, ideal para tareas repetitivas como abastecer comestibles en algún supermercado.
  5. Similar al uso de múltiples pestañas en un navegador, los usuarios pueden hacer que Operator ejecute múltiples tareas simultáneamente, como ordenar una taza personalizada en Etsy mientras reservan un campamento.