Una cara de IA creada a partir de ondas sonoras.

Los videos falsos significan que no puedes confiar en todo lo que ves. Ahora, los deepfakes de audio pueden significar que ya no puedes confiar en tus oídos. ¿Era realmente el presidente declarando la guerra a Canadá? ¿Es realmente tu papá al teléfono pidiendo su contraseña de correo electrónico?

Agregue otra preocupación existencial a la lista de cómo nuestra propia arrogancia podría inevitablemente destruirnos. Durante la era Reagan, los únicos riesgos tecnológicos reales eran la amenaza de guerra nuclear, química y biológica.

En los años siguientes, hemos tenido la oportunidad de obsesionarnos con la sustancia grisácea de la nanotecnología y las pandemias globales. Ahora tenemos deepfakes: personas que pierden el control sobre su apariencia o su voz.

¿Qué es un deepfake de audio?

La mayoría de nosotros hemos visto un  video deepfake, en el que se utilizan algoritmos de aprendizaje profundo para reemplazar a una persona con la semejanza de otra. Los mejores son desconcertantemente realistas, y ahora es el turno del audio. Un deepfake de audio es cuando se utiliza una voz "clonada" que es potencialmente indistinguible de la de la persona real para producir audio sintético.

"Es como Photoshop para voz", dijo Zohaib Ahmed, director ejecutivo de Resemble AI, sobre la tecnología de clonación de voz de su empresa.

Sin embargo, los trabajos malos de Photoshop se desacreditan fácilmente. Una empresa de seguridad con la que hablamos dijo que la gente generalmente solo adivina si un audio deepfake es real o falso con una precisión del 57 por ciento, no mejor que lanzar una moneda al aire.

Además, debido a que muchas grabaciones de voz son de llamadas telefónicas de baja calidad (o grabadas en lugares ruidosos), las falsificaciones profundas de audio pueden hacerse aún más indistinguibles. Cuanto peor es la calidad del sonido, más difícil es captar esas señales reveladoras de que una voz no es real.

Pero, ¿por qué alguien necesitaría un Photoshop para voces, de todos modos?

El caso convincente del audio sintético

De hecho, existe una enorme demanda de audio sintético. Según Ahmed, "el ROI es muy inmediato".

Esto es particularmente cierto cuando se trata de juegos. En el pasado, el habla era el único componente de un juego que era imposible de crear bajo demanda. Incluso en títulos interactivos con escenas de calidad cinematográfica representadas en tiempo real, las interacciones verbales con personajes que no juegan son siempre esencialmente estáticas.

Ahora, sin embargo, la tecnología se ha puesto al día. Los estudios tienen el potencial de clonar la voz de un actor y utilizar motores de conversión de texto a voz para que los personajes puedan decir cualquier cosa en tiempo real.

También hay usos más tradicionales en publicidad, tecnología y soporte al cliente. Aquí, lo importante es una voz que suene auténticamente humana y responda personal y contextualmente sin intervención humana.

Las empresas de clonación de voz también están entusiasmadas con las aplicaciones médicas. Por supuesto, el reemplazo de voz no es nada nuevo en la medicina: Stephen Hawking usó una voz robótica sintetizada después de perder la suya en 1985. Sin embargo, la clonación de voz moderna promete algo aún mejor.

En 2008, la compañía de voces sintéticas CereProc le devolvió la voz al difunto crítico de cine Roger Ebert después de que el cáncer se la quitara. CereProc había publicado una página web que permitía a las personas escribir mensajes que luego serían pronunciados con la voz del ex presidente George Bush.

“Ebert vio eso y pensó, 'bueno, si pudieran copiar la voz de Bush, deberían poder copiar la mía'”, dijo Matthew Aylett, director científico de CereProc. Luego, Ebert le pidió a la compañía que creara una voz de reemplazo, lo que hicieron procesando una gran biblioteca de grabaciones de voz.

“Fue una de las primeras veces que alguien hizo eso y fue un verdadero éxito”, dijo Aylett.

En los últimos años, varias empresas (incluida CereProc) han trabajado con la Asociación ALS en Project Revoice para proporcionar voces sintéticas a quienes padecen ELA.

El logotipo de Project Revoice.

Cómo funciona el audio sintético

La clonación de voz está teniendo un momento en este momento, y una gran cantidad de empresas están desarrollando herramientas. Asemble AI y Descript tienen demostraciones en línea que cualquiera puede probar gratis. Simplemente grabas las frases que aparecen en pantalla y, en tan solo unos minutos, se crea un modelo de tu voz.

Puede agradecer a la IA, específicamente a los algoritmos de aprendizaje profundopor ser capaz de hacer coincidir la voz grabada con el texto para comprender los fonemas que componen su voz. Luego usa los bloques de construcción lingüísticos resultantes para aproximar las palabras que no le ha escuchado hablar.

La tecnología básica ha existido por un tiempo, pero como señaló Aylett, requería algo de ayuda.

"Copiar la voz era un poco como hacer pasteles", dijo. "Fue un poco difícil de hacer y había varias formas de modificarlo a mano para que funcionara".

Los desarrolladores necesitaban enormes cantidades de datos de voz grabados para obtener resultados aceptables. Luego, hace unos años, se abrieron las compuertas. La investigación en el campo de la visión por computadora resultó ser fundamental. Los científicos desarrollaron redes generativas de confrontación (GAN), que por primera vez pudieron extrapolar y hacer predicciones basadas en datos existentes.

“En lugar de que una computadora vea la imagen de un caballo y diga 'esto es un caballo', mi modelo ahora podría convertir un caballo en una cebra”, dijo Aylett. "Entonces, la explosión en la síntesis de voz ahora se debe al trabajo académico de la visión por computadora".

Una de las mayores innovaciones en la clonación de voz ha sido la reducción general de la cantidad de datos sin procesar que se necesitan para crear una voz. En el pasado, los sistemas necesitaban decenas o incluso cientos de horas de audio. Ahora, sin embargo, se pueden generar voces competentes a partir de solo minutos de contenido.

El miedo existencial de no confiar en nada

Esta tecnología, junto con la energía nuclear, la nanotecnología, la impresión 3D y CRISPR, es a la vez emocionante y aterradora. Después de todo, ya ha habido casos en las noticias de personas engañadas por clones de voz. En 2019, una empresa en el Reino Unido afirmó que fue engañada por una llamada telefónica de audio deepfake para transferir dinero a los delincuentes.

Tampoco tienes que ir muy lejos para encontrar falsificaciones de audio sorprendentemente convincentes. El canal de YouTube Vocal Synthesis presenta a personas conocidas que dicen cosas que nunca dijeron, como  George W. Bush leyendo “In Da Club” de 50 CentEs perfecto.

En otra parte de YouTube, se puede escuchar a una bandada de ex presidentes, incluidos Obama, Clinton y Reagan, rapeando a NWALa música y los sonidos de fondo ayudan a disfrazar algunos de los obvios fallos robóticos, pero incluso en este estado imperfecto, el potencial es obvio.

Experimentamos con las herramientas de  Asemble AI y Descript y creamos un clon de voz. Descript usa un motor de clonación de voz que originalmente se llamaba Lyrebird y fue particularmente impresionante. Nos sorprendió la calidad. Escuchar tu propia voz decir cosas que sabes que nunca has dicho es desconcertante.

Definitivamente hay una cualidad robótica en el discurso, pero en una escucha casual, la mayoría de la gente no tendría ninguna razón para pensar que es falso.

El editor de secuencias de comandos de clonación de voz Descript.

Teníamos esperanzas aún mayores para asemejarse a la IA. Le brinda las herramientas para crear una conversación con múltiples voces y variar la expresividad, la emoción y el ritmo del diálogo. Sin embargo, no pensamos que el modelo de voz capturara las cualidades esenciales de la voz que usamos. De hecho, era poco probable que engañara a nadie.

Un representante de Resemble AI nos dijo que "la mayoría de las personas quedan impresionadas por los resultados si lo hacen correctamente". Construimos un modelo de voz dos veces con resultados similares. Entonces, evidentemente, no siempre es fácil hacer un clon de voz que pueda usar para llevar a cabo un atraco digital.

Aun así, el fundador de Lyrebird (que ahora forma parte de Descript), Kundan Kumar, siente que ya hemos superado ese umbral.

“Para un pequeño porcentaje de casos, ya está ahí”, dijo Kumar. "Si utilizo audio sintético para cambiar algunas palabras en un discurso, ya es tan bueno que le costará saber qué cambió".

El editor de secuencias de comandos de clonación de voz de asemejarse a AI

También podemos asumir que esta tecnología solo mejorará con el tiempo. Los sistemas necesitarán menos audio para crear un modelo y los procesadores más rápidos podrán construir el modelo en tiempo real. Una IA más inteligente aprenderá a agregar una cadencia y un énfasis más convincentes, similares a los humanos, en el habla sin tener un ejemplo con el que trabajar.

Lo que significa que podríamos estar acercándonos a la disponibilidad generalizada de la clonación de voz sin esfuerzo.

La ética de la caja de Pandora

La mayoría de las empresas que trabajan en este espacio parecen estar preparadas para manejar la tecnología de forma segura y responsable. Similar a AI, por ejemplo, tiene una sección completa de "Ética" en su sitio web, y el siguiente extracto es alentador:

"Trabajamos con las empresas a través de un proceso riguroso para asegurarnos de que la voz que están clonando sea utilizable por ellas y tenga los consentimientos adecuados con los actores de voz".

La página "Declaración ética" en el sitio web de Resemble AI.

Asimismo, Kumar dijo que Lyrebird estaba preocupado por el mal uso desde el principio. Es por eso que ahora, como parte de Descript, solo permite a las personas clonar su propia voz. De hecho, tanto Resemble como Descript requieren que las personas graben sus muestras en vivo para evitar la clonación de voz no consensuada.

Es alentador que los principales actores comerciales hayan impuesto algunas pautas éticas. Sin embargo, es importante recordar que estas empresas no son guardianes de esta tecnología. Hay una serie de herramientas de código abierto que ya están disponibles, para las que no existen reglas. Según Henry Ajder, jefe de inteligencia de amenazas en  Deeptrace, tampoco es necesario tener conocimientos avanzados de codificación para hacer un mal uso.

“Gran parte del progreso en el espacio se ha logrado mediante el trabajo colaborativo en lugares como GitHub, utilizando implementaciones de código abierto de artículos académicos publicados anteriormente”, dijo Ajder. "Puede ser utilizado por cualquier persona que tenga un nivel moderado de codificación".

Los profesionales de la seguridad han visto todo esto antes

Los delincuentes han intentado robar dinero por teléfono mucho antes de que fuera posible la clonación de voz, y los expertos en seguridad siempre han estado disponibles para detectarlo y prevenirlo. La compañía de seguridad Pindrop intenta detener el fraude bancario verificando si la persona que llama es quien dice ser a partir del audio. Solo en 2019, Pindrop afirma haber analizado 1.200 millones de interacciones de voz y haber evitado unos 470 millones de dólares en intentos de fraude.

Antes de la clonación de voz, los defraudadores probaron otras técnicas. La más simple fue llamar desde otro lugar con información personal sobre la marca.

"Nuestra firma acústica nos permite determinar que una llamada realmente proviene de un teléfono Skype en Nigeria debido a las características del sonido", dijo el director ejecutivo de Pindrop, Vijay Balasubramaniyan. "Entonces, podemos comparar eso sabiendo que el cliente usa un teléfono de AT&T en Atlanta".

Algunos delincuentes también han hecho carrera utilizando sonidos de fondo para confundir a los representantes bancarios.

"Hay un estafador al que llamamos Chicken Man que siempre tenía gallos en segundo plano", dijo Balasubramaniyan. "Y hay una señora que usó el llanto de un bebé de fondo para convencer esencialmente a los agentes del centro de llamadas de que 'oye, estoy pasando por un momento difícil' para obtener simpatía".

Y luego están los delincuentes masculinos que buscan las cuentas bancarias de las mujeres.

“Usan la tecnología para aumentar la frecuencia de su voz, para que suene más femenina”, explicó Balasubramaniyan. Estos pueden tener éxito, pero "ocasionalmente, el software falla y suenan como Alvin y las ardillas".

Por supuesto, la clonación de voces es solo el último desarrollo en esta guerra en constante escalada. Las empresas de seguridad ya han capturado a los estafadores que utilizan audio sintético en al menos un ataque de pesca submarina.

"Con el objetivo correcto, el pago puede ser enorme", dijo Balasubramaniyan. "Por lo tanto, tiene sentido dedicar tiempo a crear una voz sintetizada de la persona adecuada".

¿Alguien puede saber si una voz es falsa?

La silueta de un rostro con ondas sonoras detrás.

Cuando se trata de reconocer si una voz ha sido falsificada, hay buenas y malas noticias. Lo malo es que los clones de voz mejoran cada día. Los sistemas de aprendizaje profundo se están volviendo más inteligentes y producen voces más auténticas que requieren menos audio para crear.

Como puede ver en este clip del presidente Obama diciéndole a MC Ren que suba al estrado, también hemos llegado al punto en el que un modelo de voz de alta fidelidad cuidadosamente construido puede sonar bastante convincente para el oído humano.

Cuanto más largo sea un clip de sonido, más probable será que notes que algo anda mal. Sin embargo, para los clips más cortos, es posible que no note que es sintético, especialmente si no tiene motivos para cuestionar su legitimidad.

Cuanto más clara sea la calidad del sonido, más fácil será notar los signos de un audio deepfake. Si alguien está hablando directamente en un micrófono con calidad de estudio, podrá escuchar con atención. Pero una grabación de llamadas telefónicas de mala calidad o una conversación capturada en un dispositivo portátil en un estacionamiento ruidoso será mucho más difícil de evaluar.

La buena noticia es que, incluso si los humanos tienen problemas para distinguir lo real de lo falso, las computadoras no tienen las mismas limitaciones. Afortunadamente, ya existen herramientas de verificación por voz. Pindrop tiene uno que enfrenta a los sistemas de aprendizaje profundo entre sí. Utiliza ambos para descubrir si una muestra de audio es la persona que se supone que es. Sin embargo, también examina si un humano puede incluso hacer todos los sonidos de la muestra.

Dependiendo de la calidad del audio, cada segundo de voz contiene entre 8.000 y 50.000 muestras de datos que se pueden analizar.

"Lo que normalmente buscamos son las limitaciones del habla debido a la evolución humana", explicó Balasubramaniyan.

Por ejemplo, dos sonidos vocales tienen una separación mínima posible entre sí. Esto se debe a que físicamente no es posible decirlos más rápido debido a la velocidad con la que los músculos de la boca y las cuerdas vocales pueden reconfigurarse.

“Cuando miramos el audio sintetizado”, dijo Balasubramaniyan, “a veces vemos cosas y decimos, 'esto nunca pudo haber sido generado por un humano porque la única persona que pudo haber generado esto necesita tener un cuello de dos metros de largo. "

También hay una clase de sonido llamada "fricativas". Se forman cuando el aire pasa a través de una estrecha constricción en la garganta cuando pronuncia letras como f, s, v y z. Los fricativos son especialmente difíciles de dominar para los sistemas de aprendizaje profundo porque el software tiene problemas para diferenciarlos del ruido.

Entonces, al menos por ahora, el software de clonación de voz se tropieza con el hecho de que los humanos son bolsas de carne que hacen fluir aire a través de agujeros en su cuerpo para hablar.

“Sigo bromeando sobre que los deepfakes son muy llorones”, dijo Balasubramaniyan. Explicó que es muy difícil para los algoritmos distinguir los finales de las palabras del ruido de fondo en una grabación. Esto da como resultado muchos modelos de voz con un habla que se desvanece más que los humanos.

"Cuando un algoritmo ve que esto sucede mucho", dijo Balasubramaniyan, "estadísticamente, se vuelve más seguro de que el audio se ha generado en lugar del humano".

Resemble AI también está abordando el problema de detección de frente con Resemblyzer, una herramienta de aprendizaje profundo de código abierto disponible en GitHubPuede detectar voces falsas y realizar la verificación del hablante.

Requiere Vigilancia

Siempre es difícil adivinar qué depara el futuro, pero es casi seguro que esta tecnología solo mejorará. Además, cualquier persona podría ser potencialmente una víctima, no solo personas de alto perfil, como funcionarios electos o directores ejecutivos bancarios.

"Creo que estamos al borde de la primera violación de audio en la que se roban las voces de las personas", predijo Balasubramaniyan.

Sin embargo, por el momento, el riesgo real de los deepfakes de audio es bajo. Ya existen herramientas que parecen hacer un buen trabajo al detectar videos sintéticos.

Además, la mayoría de las personas no corren el riesgo de sufrir un ataque. Según Ajder, los principales actores comerciales "están trabajando en soluciones a medida para clientes específicos, y la mayoría tiene pautas éticas bastante buenas en cuanto a con quién trabajarían y con quién no".

Sin embargo, la verdadera amenaza está por venir, como explicó Ajder:

“Pandora's Box será gente que ensambla implementaciones de código abierto de la tecnología en aplicaciones o servicios cada vez más fáciles de usar y accesibles que no tienen ese tipo de nivel ético de escrutinio que las soluciones comerciales tienen en este momento”.

Esto probablemente sea inevitable, pero las empresas de seguridad ya están incorporando la detección de audio falso en sus kits de herramientas. Aún así, mantenerse a salvo requiere vigilancia.

“Hemos hecho esto en otras áreas de seguridad”, dijo Ajder. “Muchas organizaciones dedican mucho tiempo a intentar comprender cuál es la próxima vulnerabilidad de día cero, por ejemplo. El audio sintético es simplemente la próxima frontera ".