Voice Engine da OpenAI promete clonar vozes com 15 segundos de áudio

Entre as empresas com acesso à ferramenta estão Age of Learning, de tecnologia educacional, a plataforma de narrativa visual HeyGen e o fabricante de software de saúde Dimagi

05/04/2024 às 18:01

Compartilhar matéria

Copiar Link

A criação de vozes sintéticas, reprodução de estilos e clonagem de vozes não é uma novidade. Mas as ferramentas que antes estavam restritas ao uso de grandes estúdios agora estão não apenas mais acessíveis, mas também com seu uso massificado. E apesar desse setor apresentar grandes avanços, tudo que vem da OpenAI, desde a abertura do ChatGPT ao público no fim de 2022, causa, e muito.

No final da semana passada eles anunciaram uma nova ferramenta de IA chamada de “Voice Engine”, um modelo para criar vozes personalizadas. Os resultados ainda são preliminares, já que publicaram uma prévia em pequena escala do modelo, mas o que chamou a atenção foi a qualidade. Com uma amostra de áudio de apenas 15 segundos e uma entrada de texto, o modelo pode criar vozes emotivas e realistas, muito parecidas com a voz original.

Isso faz com que qualquer pessoa possa usar facilmente a voz de uma pessoa famosa em textos absurdos, cantar músicas que nunca cantaram, enganar alguém da família e por aí vai. E como a clonagem de vozes já é usada para golpes e crimes dos mais diversos, a ferramenta está sendo testada por um grupo restrito de usuários, pelo menos para esse uso. Isso porque esse sintetizador de voz existe desde 2022, e foi usado para alimentar os recursos de áudio do ChatGPT, disponíveis na API de texto para fala, mas agora se apresenta como uma ferramenta separada.

Entre as empresas com acesso ao Voice Engine estão Age of Learning, de tecnologia educacional, a plataforma de narrativa visual HeyGen, o fabricante de software de saúde Dimagi, o criador do aplicativo de comunicação de IA Livox e o sistema de saúde Lifespan, empresas que já trabalham com o uso de vozes sintéticas, mas que agora podem testar novas possibilidades.

Na postagem feita no blog da OpenAI, podemos ouvir várias amostras. Em uma delas, a partir da leitura feita por uma pessoa, foram gerados várias versões do mesmo texto em línguas diferentes, como espanhol, mandarim, alemão, francês e japonês. Em cada uma das amostras geradas por IA, o tom e o sotaque do locutor original foram mantidos, e realmente surpreende.

Isso mostra como o gerador de voz pode ter uma série de aplicações potenciais. Podemos começar pela área da acessibilidade, em que, por exemplo, uma pessoa que perdeu a fala em um acidente poderia ter sua voz clonada e usada em outros dispositivos, permitindo que ela “converse” de forma mais natural. Esse uso já existia, mas geralmente era uma voz qualquer. Na área do entretenimento e na produção de conteúdo, ter seus vídeos em várias línguas vai fazer com que alguns influenciadores locais se tornem globais, sem muito trabalho.

Mas todo esse potencial também levanta preocupações, principalmente com relação a desinformação, crimes, fraudes e golpes. E a OpenAI sabe disso, tanto que a empresa espera abrir um diálogo sobre o uso responsável de vozes sintéticas com essa divulgação e com seus usuários iniciais. Por isso mesmo, só será lançada para o público quando houver medidas de segurança que impeçam falsificações de áudio. E dá pra imaginar o problema que poderia ser se a ferramenta fosse liberada agora, em ano eleitoral em vários países.

Nesse mesmo sentido é muito importante a colaboração de diversos setores, como governo, mídia, entretenimento, educação, sociedade civil, entre outros, para testar a ferramenta e gerar feedbacks que possam ajudar a construir uma plataforma mais segura (apesar de desconfiar dessa possibilidade).

Segundo o texto da empresa, algumas medidas de segurança já foram implementadas, como termos de uso que proíbem o uso da voz de qualquer pessoa sem seu consentimento ou direito legal. Outro ponto importante é a obrigatoriedade de divulgar que as vozes foram geradas pelo Voice Engine, além da marca d’água no arquivo para rastrear a origem de qualquer áudio gerado pela ferramenta e o monitoramento de como ela está sendo usada.

A OpenAI também reconheceu a necessidade de grandes mudanças à medida que o áudio gerado por IA se torna mais amplamente disponível, como a eliminação progressiva da autenticação baseada em voz para contas bancárias, por exemplo.

“Qualquer implantação ampla de tecnologia de voz sintética deve ser acompanhada por experiências de autenticação de voz que verifiquem se o locutor original está adicionando conscientemente sua voz ao serviço e uma lista de vozes proibidas que detecta e impede a criação de vozes que são muito semelhantes a vozes proeminentes. números”
Comunicado da Open AI

Todas essas preocupações fazem com que a disponibilização da ferramenta para o público geral seja incerta, e mostram o quanto o desenvolvimento técnico e o ético-legal devem ser concomitantes para a integridade de qualquer conteúdo. Resta saber como o modelo foi treinado…

Concorrentes

A geração de áudio a partir de textos é uma área da IA generativa que continua a evoluir. Existem outras empresas que usam essa técnica, como o Podcastle e o ElevenLabs. Outra ferramenta que chamou bastante atenção no início do ano passado foi o VALL-E, que com apenas 3 segundos de áudio, consegue pegar já todas as nuances da voz, preservar o tom emocional e o ambiente acústico do locutor e simular qualquer outra fala, mesmo que as condições e tom emocional mudem um pouco.

Tudo isso só ratifica o quanto, no futuro próximo, as pessoas vão ter que desenvolver a habilidade de questionar, de investigar se algo é “real”, entre muitas aspas, ou não. Muito provavelmente, logo mais as crianças vão ter disciplinas que ensinam checagem, inclusive através de códigos, para não serem passadas para trás por metadados que foram manipulados.

Conclusão

Se antes o Spotify precisava se juntar com empresas de IA para produzir músicas de cantores que já morreram, como o que aconteceu em 2016, quando criaram uma nova música do rapper brasileiro Sabotage, morto em 2003, agora qualquer um pode criar música de cantores famosos, vivos ou não. Foi o que aconteceu com a música “Heart On My Sleeve”, que simula as vozes do Drake e do The Weeknd, e que causou bastante no ano passado.

É inegável a revolução que a Inteligência Artificial Generativa (GenAI) pode trazer, principalmente quando se trata da indústria do audiovisual, e no caso, para a indústria musical. A influência na música será significativa e não só sobre computadores escrevendo músicas, mas também estimulando novas formas de síntese de áudio, masterização de faixas, criação de instrumentos anteriormente impossíveis e réplicas de voz.

Abstraindo a parte criativa claramente os riscos envolvidos são muitos. Por isso é essencial obrigar os desenvolvedores a abrir a base de dados pela qual a solução foi treinada, sendo o processo transparente.

Ao mesmo tempo, precisamos de mecanismos éticos e legais para nos protegermos, afinal até a gravação de uma reunião pode ser usada para fins indevidos. Se na indústria criativa a GenAI pode abrir novas formas de criação e possibilidades de alcance antes inimagináveis, no nosso dia-a-dia temos mais riscos que vantagens. Resta saber onde isso vai dar.

Rita Wu

Voice Engine da OpenAI promete clonar vozes com 15 segundos de áudio

Linguagem do amor de Selena Gomez e Benny Blanco é combinar looks; veja

Sabrina Sato viaja para os EUA com malas de R$ 7 mil

Gaby Amarantos, Liniker e mais famosos desfilam em 5º dia da SPFW

Estilo de vida ou saúde? Como cada geração vê a prática de atividade física

Quem marcou mais pontos nos playoffs da NBA? Veja maiores cestinhas