El lunes, los creadores de ChatGPT OpenAI Anunciado Estaba comenzando a implementar el reconocimiento de voz e imagen en ChatGPT. Básicamente, la IA puede reconocer una imagen por lo que es. y comunicarse con los usuarios al respecto. Además, la IA ahora tiene capacidades de síntesis de voz a texto y de síntesis de texto a voz, todas las cuales son Se supone que debe hacer que el chatbot parezca más, ejem, “humano” de lo que era anteriormente.
OpenAI compartió un video promocional que se supone ofrece a los usuarios una idea de cómo se verán las capacidades de reconocimiento de imágenes. En él, un usuario le pide ayuda a ChatGPT para bajar el sillín de su bicicleta, a lo que el chatbot responde con algunas generales (y, si fuéramos poco caritativos, (extremadamente obvio) consejo para bajar cualquier tipo de asiento.El usuario primerizo del asiento de bicicleta trazó un círculo alrededor del cierre del asiento de bicicleta y pidió ayuda más detallada, para lo cual ChatGPT supuestamente reconoció el tipo de perno y le dijo al usuario que necesitaba una llave allen . El sistema supuestamente también puede ver imagen del manual de usuario y la caja de herramientas para ver si tienen la llave del tamaño correcto.
Si bien el reconocimiento de imágenes no es algo con lo que muchos servicios de chatbot hayan experimentado, también estamos muy actualizados en sistemas de reconocimiento de voz. como síntesis de voz. OpenAI se burló de los nuevos servicios de voz del chatbot con un video de una madre que le pide a ChatGPT que le lea a sus hijos antes de dormir historia sobre un erizo del bosque en particular (ella podría simplemente leer un libro ilustrado real, pero supongo que esa es una forma de ser padre ).Las muestras incluidas en la publicación del blog de OpenAI tienen una cadencia de sonido natural, aunque no es como “Juniper”, “Sky” o “ Los paquetes de voces de Breeze crearán voces únicas para el pequeño Larry el Erizo o cualquiera de sus amigos del bosque. Cada voz se basa en un actor de doblaje que autorizó sus sonidos para el sistema, según OpenAI.
Es similar a otra sintetización de voz IA de empresas como ElevenLabs. Ese servicio ha sido arrastrado por ser inicialmente usado para deepfakes y acoso. OpenAI dijo que sus primeros servicios de voz solo se estaban implementando en el chat de voz ChatGPT. La compañía también está otorgando licencias para sus sistemas de voz. a Spotify, que el lunes Anunciado Nuevas capacidades de traducción de voz de podcasts. El sistema debería poder mantener la misma voz de los podcasters, pero hacer que hablen en español, francés y Alemán para empezar.