OpenAI compartió la primera información y resultados preliminares de su modelo Voice Engine, que utiliza una entrada de texto y una única muestra de audio de 15 segundos para generar un discurso con un sonido ‘natural’ que se parece mucho a la voz del hablante original.
Antecedentes
La empresa detrás de ChatGPT, cofundada por Sam Altman y Elon Musk, empezó a desarrollar Voice Engine a fines de 2022 y lo ha utilizado para potenciar las voces preestablecidas disponibles en su API de conversión de texto a voz, así como ChatGPT Voice and Read Aloud.
Sin embargo, aclaró que, debido a que las voces pueden ser ‘emotivas y realistas’, por ahora está adoptando un enfoque cauteloso e informado para su difusión más amplia, debido al potencial de uso indebido de la voz sintética.
Primeras aplicaciones
A fines de 2023, OpenAI comenzó a probar el modelo de forma privada con un pequeño grupo de socios confiables en implementaciones a lo largo de diversas industrias, que incluyen:
- Brindar asistencia de lectura a niños y no lectores
- Traducir contenido
- Llegar a comunidades globales
- Apoyar a las personas que no son verbales
- Ayudar a los pacientes a recuperar su voz
La cuestión de la seguridad
OpenAI aseguró reconocer que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos, los cuales son especialmente relevantes y se agravan en un año electoral, como 2024.
Por ello, dijo que está colaborando con socios estadounidenses e internacionales del gobierno, los medios de comunicación, el entretenimiento, la educación y la sociedad civil para incorporar sus recomendaciones a medida que construyan el modelo.
Finalmente, dijo que espera continuar con el diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. Y aseguró que, a partir de estas conversaciones y los resultados de las pruebas a pequeña escala, tomará una decisión más informada sobre si implementar la tecnología a mayor escala y cómo hacerlo.