El gigante de Redmond ha presentado Vall-E. Una IA (inteligencia artificial) capaz de reproducir tu voz de forma casi idéntica tras solo escucharte hablar durante tres segundos. Y que incluso puede imitar emociones, ambiente acústico y diferentes énfasis en las frases.
Los diferentes sistemas de IA florecen últimamente. Una carrera en la que Microsoft no quiere quedarse atrás. De hecho, la marca asegura que Vall-E “supera significativamente” a lo que existe hasta ahora “en términos de similitud del hablante”. Sin embargo, parece que también se trata de una excelente herramienta para difundir noticias falsas. El quid de la cuestión es que se ha traspasado una línea roja. La de poder suplantar la identificación de voz. Pero la tentación es sabrosa. ¿Quién va a querer pagar en un posible futuro a los actores? Y un escalón más arriba, ¿hasta dónde va a llegar la inteligencia artificial?
¿Qué es Vall-E?
Vall-E es el nombre de la última IA (Inteligencia Artificial) lanzada por Microsoft que puede imitar la voz de cualquier persona en solo 3 segundos. Se trata de un modelo de lenguaje de códec neuronal impulsado por este tipo de inteligencia. Terriblemente bueno para sintetizar voces humanas.
Pero vamos a ver primero cómo empieza el asunto. Vall-E se creó a partir de una tecnología de IA anterior introducida por Meta llamada EnCodec. Sin embargo, Vall-E funciona de manera bastante diferente a las herramientas conocidas de texto a voz.
Las soluciones de conversión de texto a voz que existen hoy en día generalmente funcionan mediante la manipulación de formas de onda para crear “voz”. Pero Vall-E puede generar códigos de códec de audio reales a partir de mensajes de texto y acústicos.
Funcionamiento del software
Básicamente, puedes dejar que Vall-E escuche primero una muestra de una persona hablando (solo debe durar al menos tres segundos). Luego analizará la forma en que suena su voz y, más tarde, la desglosará en lo que los investigadores llaman “fichas acústicas”.
Con estos tokens acústicos, puedes darle a Vall-E un mensaje de texto. En él podrá generar un clip de audio que diga el mensaje mientras mantiene los patrones vocales del orador. Además, el producto de Microsoft puede imitar de cerca el entorno acústico del audio de muestra. E incluso producir variaciones de la voz de muestra ajustando las indicaciones utilizadas al generar el resultado.
Combinación con GPT-3
Vall-E también puede usarse para la creación de contenido de audio combinándolo con otras herramientas de IA, como el modelo de chat humano GPT-3. Es más, recordemos que la compañía dirigida por Satya Nadella acaba de anunciar que va a implementar ChatGPT dentro de sus posibles soluciones. Pero ¿cuál es el final de todo esto? Pues que la propia ChatGPT sería capaz de ofrecernos resultados de voz una vez haya integrado este modelo.
IA creativa
Vemos cómo, desafortunadamente para muchos aspirantes a artistas, la IA se está volviendo cada vez más experta en tareas creativas. Y es que la finalidad de Vall-E es generar grabaciones de audio auténticas de la voz humana a partir de una muestra muy breve.
Adivinando emociones
El software Vall-E fue entrenado en 60.000 horas de inglés. Es más, en este experimento bastaron solo tres segundos de metraje para hacer un fake que, según los más próximos, no solo dice palabras que no es su modelo a seguir. Sino que también adivina el tono de la voz de su colega de carne y hueso, así como la emoción con la que lee determinado texto.
Si bien esto suena de modo impresionante, algunos ejemplos publicados en GitHub (plataforma de desarrollo en la que se alojan proyectos) lo desmienten un poco. Es decir, los hay que imitan fehacientemente una voz determinada, pero también hay aquellos en los que resulta evidente que se trata de una falsificación.
Medidas restrictivas
Al menos de momento, Vall-E no está disponible para el público. Para muchos, se trata de una excelente herramienta con la que difundir noticias falsas. Y por esta razón, legisladores de varios países del mundo no ven con buenos ojos a estos generadores de IA.
Además, se espera que las empresas involucradas en el desarrollo de Vall-E eviten el uso indebido de sus algoritmos; en este sentido, están obligadas a publicar cualquier contenido sintético relacionado. Y un paso más allá, se implementarán medidas restrictivas tanto en la Unión Europea y Gran Bretaña, como en varios países estadounidenses.
Una nueva tentación
Aunque la aprensión está justificada, la nueva tecnología incorporada en Vall-E es muy tentadora. Por ejemplo, en la biblioteca de Apple puedes encontrar audiolibros con las palabras “Narrado por Apple Books”. Lo que significa que la lectura fue realizada por inteligencia artificial. Entonces, ¿por qué pagar a los actores, cuando puedes pagar una sola vez el software?
Mitigando riesgos
Como explican los investigadores de Microsoft, “dado que Vall-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el mal uso del modelo. Como falsificar la identificación de voz o hacerse pasar por un hablante específico. No obstante, y con objeto de mitigar tales riesgos, es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por Vall-E. Aunque también pondremos en práctica los principios de IA de Microsoft cuando desarrollemos más los modelos”.
17 de enero de 2023 a las 16:30
Gracias !!!!
17 de enero de 2023 a las 10:23
es Vall-E ☺️