Comunicação além das palavras
Descrever o som de um motor defeituoso ou imitar o miado do gato do vizinho pode ser uma maneira eficiente de transmitir uma ideia quando as palavras falham. A imitação vocal é o equivalente sonoro de rabiscar uma imagem para comunicar algo que você viu — mas, em vez de usar um lápis, você utiliza suas cordas vocais para expressar um som. Isso pode parecer difícil, mas é algo que fazemos intuitivamente. Experimente imitar com sua voz o som de uma sirene de ambulância, de um corvo ou de um sino sendo tocado.
Inovação do MIT
Inspirados pela ciência cognitiva da comunicação, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) desenvolveram um sistema de IA capaz de produzir imitações vocais humanas sem treinamento prévio e sem nunca ter “ouvido” uma imitação vocal humana antes.
Para alcançar esse feito, os pesquisadores criaram um modelo do trato vocal humano que simula como as vibrações da caixa de voz são moldadas pela garganta, língua e lábios. Eles utilizaram um algoritmo de IA inspirado em cognição para controlar esse modelo e produzir imitações, considerando as formas específicas de como os humanos escolhem comunicar sons.
O modelo consegue gerar imitações humanas de vários sons do mundo, incluindo ruídos como folhas farfalhando, o silvo de uma cobra e a sirene de uma ambulância se aproximando. Também pode funcionar ao contrário, adivinhando sons do mundo real a partir de imitações vocais humanas, semelhante a sistemas de visão computacional que recuperam imagens de alta qualidade com base em esboços.
Possibilidades futuras
No futuro, esse modelo poderá levar a interfaces mais intuitivas baseadas em imitação para designers de som, personagens de IA mais humanos em realidade virtual e até métodos para ajudar estudantes a aprender novas línguas.
Os principais autores do estudo — alunos de doutorado do MIT CSAIL Kartik Chandra SM ’23 e Karima Ma, e o pesquisador de graduação Matthew Caren — observam que pesquisadores de gráficos computacionais há muito reconhecem que o realismo raramente é o objetivo final da expressão visual. Por exemplo, uma pintura abstrata ou um desenho de criança pode ser tão expressivo quanto uma fotografia.
A arte da imitação em três fases
A equipe desenvolveu três versões do modelo para comparar com imitações vocais humanas. Primeiro, criaram um modelo básico que visava gerar imitações semelhantes aos sons do mundo real, mas não correspondia bem ao comportamento humano.
Em seguida, projetaram um modelo “comunicativo”, que considera o que é distintivo sobre um som para um ouvinte. Por exemplo, ao imitar o som de um barco a motor, você provavelmente imitaria o ronco do motor, pois é a característica mais distinta, mesmo que não seja o aspecto mais alto do som. Este segundo modelo criou imitações melhores, mas a equipe queria melhorá-lo ainda mais.
Para isso, adicionaram uma camada final de raciocínio ao modelo. “Imitações vocais podem soar diferentes dependendo do esforço colocado nelas. Produzir sons perfeitamente precisos requer tempo e energia”, diz Chandra. O modelo completo evita sons rápidos, altos ou muito agudos/graves, que as pessoas são menos propensas a usar em uma conversa. O resultado: imitações mais humanas que correspondem às decisões que os humanos tomam ao imitar os mesmos sons.
Tecnologia sonora mais expressiva
Focado em tecnologia para música e arte, Caren imagina que o modelo poderia ajudar artistas a melhor comunicar sons para sistemas computacionais e auxiliar cineastas e criadores de conteúdo a gerar sons de IA mais nuançados para contextos específicos. Também poderia permitir que músicos pesquisem rapidamente um banco de sons imitando um ruído difícil de descrever em uma solicitação de texto.
No momento, a equipe continua trabalhando no modelo atual, que tem dificuldades com algumas consoantes, como “z”, levando a impressões imprecisas de certos sons, como o zumbido de abelhas. Também ainda não conseguem replicar como humanos imitam fala, música ou sons que são imitados de forma diferente em diferentes línguas, como o batimento cardíaco.
O professor de linguística da Universidade de Stanford, Robert Hawkins, destaca que a linguagem está cheia de onomatopeias e palavras que imitam, mas não replicam completamente os sons que descrevem, como o “miau” que imprecisamente aproxima o som que os gatos fazem. “Os processos que nos levam do som de um gato real a uma palavra como ‘miau’ revelam muito sobre a complexa interação entre fisiologia, raciocínio social e comunicação na evolução da linguagem”, diz Hawkins, que não esteve envolvido na pesquisa do CSAIL.
O trabalho de Caren, Chandra e Ma foi realizado com outros dois afiliados do CSAIL: Jonathan Ragan-Kelley, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação do MIT, e Joshua Tenenbaum, professor de Ciências Cerebrais e Cognitivas do MIT e membro do Centro de Cérebros, Mentes e Máquinas. A pesquisa foi apresentada na SIGGRAPH Asia no início de dezembro, com apoio da Fundação Hertz e da National Science Foundation.