OpenAI presenta los primeros avances de su modelo para generar voces sintéticas

OpenAI compartió los resultados de sus primeras pruebas de Voice Engine, su modelo para crear voces personalizadas, en aplicaciones como la lectura, la traducción y el apoyo en los trastornos del lenguaje.

Crédito: Shutterstock

OpenAI compartió la primera información y resultados preliminares de su modelo Voice Engine, que utiliza una entrada de texto y una única muestra de audio de 15 segundos para generar un discurso con un sonido ‘natural’ que se parece mucho a la voz del hablante original.

Antecedentes

La empresa detrás de ChatGPT, cofundada por Sam Altman y Elon Musk, empezó a desarrollar Voice Engine a fines de 2022 y lo ha utilizado para potenciar las voces preestablecidas disponibles en su API de conversión de texto a voz, así como ChatGPT Voice and Read Aloud.

Sin embargo, aclaró que, debido a que las voces pueden ser ‘emotivas y realistas’, por ahora está adoptando un enfoque cauteloso e informado para su difusión más amplia, debido al potencial de uso indebido de la voz sintética.

Primeras aplicaciones

A fines de 2023, OpenAI comenzó a probar el modelo de forma privada con un pequeño grupo de socios confiables en implementaciones a lo largo de diversas industrias, que incluyen:

  • Brindar asistencia de lectura a niños y no lectores
  • Traducir contenido
  • Llegar a comunidades globales
  • Apoyar a las personas que no son verbales
  • Ayudar a los pacientes a recuperar su voz

La cuestión de la seguridad

OpenAI aseguró reconocer que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos, los cuales son especialmente relevantes y se agravan en un año electoral, como 2024.

Por ello, dijo que está colaborando con socios estadounidenses e internacionales del gobierno, los medios de comunicación, el entretenimiento, la educación y la sociedad civil para incorporar sus recomendaciones a medida que construyan el modelo.

Finalmente, dijo que espera continuar con el diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. Y aseguró que, a partir de estas conversaciones y los resultados de las pruebas a pequeña escala, tomará una decisión más informada sobre si implementar la tecnología a mayor escala y cómo hacerlo.