Índice:
- Como o aprendizado profundo gera vozes humanas
- Recriar a voz de uma pessoa sem voz
- Equilibrando os usos negativos dos sintetizadores de IA
Vídeo: Fernandinho - Todas as Coisas (DVD Uma Nova História) (Novembro 2024)
Em 2017, a esclerose lateral amiotrófica (ELA), um distúrbio neurológico devastador, roubou Pat Quinn, fundador do famoso Ice Bucket Challenge, de sua capacidade de falar.
Graças aos avanços no aprendizado de máquina e no aprendizado profundo, os algoritmos de inteligência artificial tornaram-se muito bons em imitar os seres humanos. Mas enquanto muitos desenvolvimentos proeminentes no espaço foram negativos, o poder de imitação da IA foi uma força de mudança positiva para Quinn.
"A maioria das pessoas que vivem com ELA (também conhecida como doença dos neurônios motores) acaba paralisada e incapaz de se comunicar com nada além de vozes artificiais de computadores", diz Oskar Westerdal, cofundador do Project Revoice, uma iniciativa que visa ajudar pacientes com ELA como Quinn.
Para recriar a voz de Quinn, o Project Revoice colaborou com a Lyrebird, uma das poucas empresas que usam a IA para clonar a voz de uma pessoa - um grupo que também inclui o WaveNet e o Voicery do Google, uma startup apoiada pelo Y Combinator que usa a AI para criar gravações de voz sintetizadas.
Como o aprendizado profundo gera vozes humanas
Por trás desses aplicativos estão os algoritmos de aprendizado profundo, um ramo popular da IA que estuda grandes conjuntos de dados para obter insights e padrões que não podem ser capturados com o software tradicional baseado em regras. Quando você treina um sintetizador de voz de aprendizado profundo com gravações de voz suficientes, ele cria um modelo digital que representa a voz da pessoa e pode gerar novas amostras de voz.
Antes do advento da tecnologia de síntese de voz com inteligência artificial, os pacientes com ELA tinham que usar vozes digitais genéricas que não eram suas. Outras tecnologias podiam unir frases pré-gravadas com a voz do paciente, mas os resultados eram muito artificiais e exigiam dezenas de horas de gravação de voz para serem de uso mínimo.
Os aplicativos de aprendizado profundo, por outro lado, exigem muito menos dados e fornecem melhores resultados. "O que o Lyrebird pode alcançar com apenas algumas horas de áudio é notável - oferece às pessoas um clone de voz digital completo, para que elas possam dizer o que quiserem", diz Westerdal.
Recriar a voz de uma pessoa sem voz
Um dos limites das aplicações de aprendizado profundo é a dependência de amostras de dados de alta qualidade para treinar suas redes neurais. O problema dos pacientes com ELA é que, uma vez que eles perdem a voz, a gravação de amostras de voz é impossível. Felizmente, Quinn teve horas de palestras e entrevistas gravadas.
"O maior desafio foi a qualidade. Essa tecnologia depende completamente de ter gravações consistentes e de alta qualidade que também seguem um script exato - então tivemos que trabalhar com um estúdio de som para 'remasterizar' manualmente e transcrever todas as linhas de diálogo que pudéssemos encontrar. de Pat ", diz Westerdal.
"Ficamos com um pouco de medo de não conseguirmos fornecer uma ótima qualidade para criar a voz de Pat", diz Jose Sotelo, cofundador da Lyrebird. "Como não conseguimos gravações limpas, a qualidade final da voz artificial não é perfeita. Pensamos que podemos fazer um trabalho muito melhor com gravações limpas".
Os resultados ainda soam um pouco antinaturais e sintéticos. Mas para Quinn, que usava uma voz genérica para se comunicar, a diferença era dramática. "Depois de ouvir minha voz por meio dessa nova tecnologia, fiquei impressionado! Para os pacientes saberem que podem ter sua própria voz depois que a ALS a tirar, isso mudará a maneira como as pessoas vivem com a ALS", diz ele.
Quinn recomenda que os pacientes com ELA gravem suas vozes antes que seja tarde demais. "Depois de ouvir minha própria voz novamente, preciso que os pacientes com ALS saibam que gravar sua voz é incrivelmente importante", diz ele.
Equilibrando os usos negativos dos sintetizadores de IA
No início deste ano, o FakeApp, um aplicativo de troca de rosto com inteligência artificial, desencadeou um ataque de vídeos pornográficos falsos com celebridades e políticos. Há uma preocupação de que aplicativos como o FakeApp e o Lyrebird inaugurem uma nova era de notícias falsas, fraudes e falsificações.
A página de ética no site da Lyrebird anteriormente reconhecia que a tecnologia "poderia ter consequências potencialmente perigosas, como diplomatas enganosos, fraude e, geralmente, qualquer outro problema causado pelo roubo da identidade de outra pessoa".
Para explicar isso, o site da empresa apresenta várias gravações sintetizadas criadas com as vozes de Donald Trump e Barack Obama.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4 de setembro de 2017
A história de Quinn pode ajudar a esclarecer os aspectos positivos de uma indústria que sofreu críticas pelos usos potencialmente assustadores e antiéticos de suas aplicações. "É importante que as pessoas percebam o lado bom dessa tecnologia", lembra Sotelo, da Lyrebird.
Além dos usos médicos, os aplicativos de sintetizadores de IA podem servir a outros objetivos produtivos. A Voicery está fornecendo às marcas vozes digitalizadas personalizadas, alimentadas por algoritmos de IA. O Google também está experimentando o WaveNet para fornecer uma experiência mais natural aos usuários de seus dispositivos equipados com o Google Assistant. Outras áreas em que a tecnologia é útil incluem automatizar audiolivros ou facilitar a dublagem de voz em filmes.
Sem dúvida, obstáculos éticos e legais surgirão e os debates continuarão. Mas para Quinn, a IA é uma força para o bem. "Não quero parecer um computador", diz ele. "Eu quero parecer como eu."