La nueva IA de Microsoft puede imitar tu voz a partir de un clip de audio de 3 segundos
Teniendo en cuenta que VALL-E también puede imitar las emociones y el entorno acústico de los humanos, da bastante miedo.
Como si el mundo no tuviera suficiente con chatGPT y su Inteligencia Artificial, ahora Microsoft presentó un programa que puede copiar la voz humana a partir de audios de apenas tres segundos.
Microsoft ha presentado una nueva inteligencia artificial, VALL-E, capaz de imitar cualquier voz con sólo una muestra de 3 segundos. Se trata de un “modelo lingüístico de códec neural” para síntesis de texto a voz (TTS). Esto significa que VALL-E puede producir un discurso sonoro a partir de un texto escrito con la voz que desee.
La inteligencia artificial se ha entrenado con 60.000 horas de habla inglesa y afirma que también conserva la emoción y el entorno acústico del hablante en su discurso sonoro. Los artistas de la imitación podrían encontrarlo una amenaza para su trabajo.
El artículo sobre este modelo lingüístico de códec neural se envió a arXiv, un archivo de libre distribución y acceso financiado por la Universidad de Cornell.
Según el resumen de este trabajo, “VALL-E presenta capacidades de aprendizaje en contexto y puede utilizarse para sintetizar habla personalizada de alta calidad con sólo una grabación de 3 segundos de un hablante no visto como estímulo acústico”.
“Además, descubrimos que VALL-E puede preservar la emoción del hablante y el entorno acústico de la indicación acústica en la síntesis”, añade.
¿Cuál es la eficacia de VALL-E?
Microsoft creó una página de demostración de investigación para su modelo de lenguaje de códec neural de síntesis de texto a voz VALL-E en Git Hub. El proceso de esta IA es fonema → código discreto → forma de onda. Utiliza indicaciones de texto y la grabación de 3 segundos registrada para generar un habla personalizada.
Hemos escuchado las muestras proporcionadas por Microsoft y nos han dejado boquiabiertos. VALL-E reproduce con precisión la voz introducida, pero eso no es todo. También puede leer texto con emociones similares a las humanas, como enfado, somnolencia, estado de diversión y sensación de asco.
Además, la IA puede sintetizar un discurso personalizado manteniendo el entorno acústico del interlocutor. Es decir, puede igualar los ruidos de fondo y los efectos ambientales que se oyen en un clip de audio. El alcance del daño que puede causar depende únicamente de la imaginación de cada uno.
“Dado que VALL-E podría sintetizar el habla manteniendo la identidad del hablante, puede conllevar riesgos potenciales en el mal uso del modelo, como la suplantación de la identificación de la voz o la suplantación de un hablante específico”, dice la declaración ética al final de la demo.
“Realizamos los experimentos bajo el supuesto de que el usuario acepta ser el hablante objetivo en la síntesis de voz. Cuando el modelo se generalice a hablantes desconocidos en el mundo real, deberá incluir un protocolo que garantice que el hablante aprueba el uso de su voz y de un modelo de detección del habla sintetizada”, añade.
Si la empresa basada en Redmond logra combinar VALL-E y el chatbot GPT en sus productos, los usuarios tendrían a su alcance un programa que recite y escriba textos en cuestión de segundos.
Más información: Microsoft VALL-E IA