OpenAI presenta avances de su modelo para generar voces sintéticas

OpenAI compartió la primera información y resultados preliminares de su modelo Voice Engine, que utiliza una entrada de texto y una única muestra de audio de 15 segundos para generar un discurso con un sonido ‘natural’ que se parece mucho a la voz del hablante original.

Antecedentes

La empresa detrás de ChatGPT, cofundada por Sam Altman y Elon Musk, empezó a desarrollar Voice Engine a fines de 2022 y lo ha utilizado para potenciar las voces preestablecidas disponibles en su API de conversión de texto a voz, así como ChatGPT Voice and Read Aloud.

Sin embargo, aclaró que, debido a que las voces pueden ser ‘emotivas y realistas’, por ahora está adoptando un enfoque cauteloso e informado para su difusión más amplia, debido al potencial de uso indebido de la voz sintética.

OpenAI lanzará Sora al público a finales de 2024

Primeras aplicaciones

A fines de 2023, OpenAI comenzó a probar el modelo de forma privada con un pequeño grupo de socios confiables en implementaciones a lo largo de diversas industrias, que incluyen:

Brindar asistencia de lectura a niños y no lectores
Traducir contenido
Llegar a comunidades globales
Apoyar a las personas que no son verbales
Ayudar a los pacientes a recuperar su voz

La cuestión de la seguridad

OpenAI aseguró reconocer que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos, los cuales son especialmente relevantes y se agravan en un año electoral, como 2024.

Por ello, dijo que está colaborando con socios estadounidenses e internacionales del gobierno, los medios de comunicación, el entretenimiento, la educación y la sociedad civil para incorporar sus recomendaciones a medida que construyan el modelo.

Finalmente, dijo que espera continuar con el diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. Y aseguró que, a partir de estas conversaciones y los resultados de las pruebas a pequeña escala, tomará una decisión más informada sobre si implementar la tecnología a mayor escala y cómo hacerlo.

L	M	X	J	V	S	D
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

OpenAI presenta los primeros avances de su modelo para generar voces sintéticas

Antecedentes

Primeras aplicaciones

La cuestión de la seguridad