Voice Engine, la IA que clona voces a partir de sólo 15 segundos de audio

Voice Engine, la IA de los creadores de ChatGPT que clona voces a partir de sólo 15 segundos de audio

Según dicen, ya están trazando medidas de seguridad para evitar su mala utilización.

Revista Digital – Información de Mercados – Compra Pública Latam

OpenAI presentó Voice Engine, un nuevo modelo de Inteligencia Artificial (IA) capaz de clonar la voz de las personas con una muestra de audio de 15 segundos, así como de leer indicaciones de texto con dicha voz en varios idiomas, con resultados naturales.

Se trata de un modelo de IA diseñado para crear voces personalizadas utilizando entrada de texto y una única muestra de audio de 15 segundos para “generar un habla con sonido natural que se parece mucho al hablante original”.

Según explicó la compañía en un comunicado en su web, comenzaron a desarrollarlo a finales de 2022 y, por el momento, Voice Engine es un modelo a pequeña escala que han utilizado para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz, así como en ChatGPT Voice y Read Aloud.

Sin embargo, al mismo tiempo, también desarrollaron este nuevo modelo con un enfoque de investigación, para comprender mejor los usos potenciales de esta tecnología. Para ello, lanzaron una vista previa a la que tuvieron acceso a algunos socios “de confianza”.

Como resultado de esta vista previa, OpenAI destacó que, actualmente, Voice Engine es capaz de crear voces “emotivas y realistas” con una sola muestra de 15 segundos de audio de la voz original del hablante, a pesar de que se trata de un modelo pequeño.

Siguiendo esta línea, los resultados de estas pruebas han revelado que Voice Engine tiene distintas aplicaciones, como dar asistencia de lectura a través de voces que suenan naturales, de manera que permite representar una gama más amplia de hablantes de lo que permiten las voces preestablecidas. Por ejemplo, para el ámbito académico, permite generar respuestas personalizadas en tiempo real para interactuar con los estudiantes.

También es un modelo útil para traducir contenido como vídeos o pódcast, de manera que los creadores de contenido puedan llegar a más usuarios a nivel global en varios idiomas, pero utilizando su propia voz. Esto es posible porque Voice Engine conserva el acento nativo del hablante original, de manera que, según ejemplifica OpenAI, si un usuario francés habla en inglés, el modelo generará traducciones manteniendo el acento francés en el audio.

De la misma forma, Voice Engine también es útil en entornos laborales, desde labores de marketing de productos hasta, por ejemplo, demostraciones de ventas, todo ello con la posibilidad de desarrollar contenido en cualquier idioma.

Respecto al entorno sanitario, OpenAI indicó que el modelo dispone de aplicaciones terapéuticas para usuarios con afecciones que afectan al habla. Por ejemplo, para ayudar a los usuarios en el aprendizaje del habla a la hora de recuperar la voz o para permitir la comunicación de personas con discapacidad utilizando voces no robóticas y en diversos idiomas.

Entre los socios con acceso a esta vista previa de Voice Engine se encuentran la compañía de tecnología educativa Age of Learning, la plataforma de narración visual HeyGen, el fabricante de ‘software’ de salud Dimagi y el desarrollador de aplicaciones de comunicación de IA Livox.

Los peligros de las voces sintéticas

A pesar de todo ello, OpenAI reflexiona que cualquier implementación amplia de voz sintética “debe ir acompañada de experiencias de autenticación de voz”, para ello, detalló una serie de medidas de seguridad que actualmente utilizan con Voice Engine.

Como forma de protección, OpenAI señaló que los socios que probaron esta versión de vista previa aceptaron políticas de uso en las que se prohíbe la suplantación de otra persona u organización sin consentimiento o derecho legal. Asimismo, se debe señalar “claramente” a la audiencia que las voces están generadas por IA.

Por su parte, el hablante original debe dar su consentimiento explícito para el uso de su voz, a lo que se añade que OpenAI no permite que los desarrolladores creen formas para que los usuarios individuales creen sus propias voces, según detalló.

“Reconocemos que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos”, admitió la compañía dirigida por Sam Altman, al tiempo que adelantó que están colaborando con socios internacionales, medios de comunicación y entretenimiento y profesionales de la educación para recoger sus comentarios sobre el modelo a medida que continúan desarrollándolo.

Con todo ello, OpenAI subrayó que, con Voice Engine, esperan iniciar un diálogo sobre “el despliegue responsable de voces sintéticas”, además de cómo se han de utilizar y cómo ha de adaptarse la sociedad a estas nuevas capacidades. En base a ello, y junto con los resultados de sus pruebas a pequeña escala, la compañía indicó que tomará una decisión sobre si implementar esta tecnología a escala en un futuro y cómo hacerlo.

Fuente: biobiochile.cl

Última edición

ChatGPT Voice, Compra Pública Latam, IA, Información de Mercados, informaciondemercados, Inteligencia Artificial (IA), Noticia Edicion, OpenAI, Read Aloud, Revista Digital, Revista IM, revista información de mercados, SAM ALTMAN, Voice Engine