Início » +Ciência » Inteligência artificial recria realidade com clones digitais
Inteligência artificial recria realidade com clones digitais
Demonstração de tecnologia de reconhecimento facial da empresa SenseTime em Shanghai GILLES SABRIÉ/NYT
Compartilhe:
01 de julho de 2023
Da Revista Cenarium*
SÃO PAULO – Um áudio de uma pessoa lendo metade deste texto é o suficiente para gerar um clone digital de sua voz. Serão menos de cinco minutos de gravação, mais do que o bastante para uma inteligência artificial (IA) imitar sua fala com uma fidelidade capaz de confundir, ao custo de US$ 5 (R$ 25).
Para gerar um vídeo copiando seu rosto, seria necessário filmar essa mesma leitura três vezes. Nesse caso, a imagem precisa ser em, pelo menos, resolução 4k, com boa iluminação.
É recomendável usar uma tela verde de estúdio no fundo para facilitar o recorte. O custo é de US$ 500 (R$ 2,5 mil) anuais e o resultado é um conteúdo útil, mas que ainda acusa sua artificialidade. A perspectiva, no entanto, é de que a estranheza dure pouco.
PUBLICIDADE
A promessa para a tecnologia é de avanço a galope, facilitando serviços audiovisuais, mas também bagunçando ainda mais as linhas entre o que é informação real e o que não é.
A Folha testou as aplicações em português de dois dos principais serviços de clonagem digital. O primeiro deles, da ElevenLabs, permite imitar vozes em todos os seus planos pagos, a partir de US$ 5. Nas opções mais caras, aumentam a quantidade e qualidade das criações.
Lançada em janeiro, a empresa diz já ter passado de um milhão de usuários. Com suas ferramentas, mira criar um sistema de dublagem instantânea para múltiplos idiomas, mantendo a sonoridade original, até o fim do ano.
A imitação é gerada instantaneamente após o sistema receber a amostra de áudio no próprio site da plataforma. O conteúdo original precisa ter entre dois e cinco minutos, e o que mais importa é sua qualidade (sem ruídos). A IA pode ler qualquer texto com a voz clonada.
Nos testes, os melhores resultados foram com áudios com qualidade profissional, gravados em estúdio. No resultado, o timbre é parecido com o original, mas o ritmo monótono da fala sintética causa estranheza.
Usando voz gravada pelo celular, o resultado foi inutilizável. A IA compensa a falta de qualidade misturando a voz clonada com outras no áudio final, bagunçando sonoridade e sotaque. Ao extrair de vídeos no YouTube, algo que um golpista também poderia fazer, a situação melhora.
Para testar a inteligência artificial da Elai, que gera vídeos, a reportagem filmou a leitura de um mesmo texto três vezes, cada uma com cerca de dois minutos. Uma alternativa seria usar fotos para o treinamento.
As instruções eram falar pausadamente, com pouco movimento e encarar diretamente a câmera. Os deslizes cometidos na última exigência se refletiram no clone, que, por vezes, desvia o olhar —a empresa alertou para esse impacto e sugeriu que fosse feita nova gravação, o que não ocorreu.
A manipulação é evidente. O avatar tem o corpo travado e não apresenta expressão facial. Os lábios abrem e fecham, mas não casam com o que é dito. O movimento da cabeça, por outro lado, simula com precisão o original. No fim, até lembra uma pessoa conversando e gera vídeos aceitáveis, mas ainda não são uma boa opção para o eventual influenciador digital que queira deixar um robô cobrindo suas férias.
As gravações para alimentar a IA foram enviadas por email para a equipe da Elai e, três dias depois, o modelo personalizado estava disponível no sistema onde os vídeos são criados. Tirando a filmagem, nada exigiu conhecimento técnico e criar um vídeo levou poucos minutos.
O serviço custaria US$ 500 por ano, o que inclui a geração e manutenção do avatar, bem como o acesso à plataforma, e foi oferecido gratuitamente à Folha para os testes.
A tecnologia visa baratear as produções de conteúdo audiovisual. “Criar um vídeo de um minuto pode levar até cinco horas, sem contar a tradução. Com IA, leva 10 minutos, e com um clique está em vários idiomas”, afirma Vitalii Romanchenko, CEO da Elai. Ele diz que a empresa tem aproximadamente 2.000 clientes, a maioria concentrada nos EUA e Europa Ocidental.
Ficam atrás da Synthesia, referência no setor. Em nota, a empresa diz ter 15 mil clientes corporativos, que aplicam sua tecnologia à criação de materiais de treinamento, vídeos institucionais e marketing de produtos.
EVOLUÇÃO E PERIGOS
A expectativa de especialistas é de um rápido aprimoramento dessas IAs. “Ainda é o começo dessa tecnologia”, afirma Romanchenko. O executivo cita que, agora, o principal desafio é que os avatares façam gestos e expressem emoções.
Esse desenvolvimento traz também preocupações. A facilidade no uso torna essas IAs atraentes para golpes, ataques hackers e desinformação. Com uma fala sintética, uma repórter do jornal The Wall Street Journal enganou o reconhecimento de voz do seu banco nos EUA por telefone.
“Eu já vejo criminosos aprendendo a usar IAs que manipulam vídeo para se parecerem visualmente com alguém de confiança”, diz Marina Ciavatta, CEO da Hekate, empresa de treinamentos em cibersegurança.
Segundo a especialista, uma das táticas é usar informações das redes sociais para deixar os golpes mais convincentes, por isso recomenda limitar a exposição online. É, ainda, bom manter o desconfiômetro ligado e verificar informações em meios de comunicação diferentes.
As empresas do setor tentam barrar o mau uso de suas ferramentas ao exigir que os usuários declarem ter o direito de utilizar a imagem ou o som para gerar mídia sintética. Na prática, isso pode ser facilmente contornável. Com a ElevenLabs, por exemplo, basta preencher uma pergunta dizendo ter autorização para usar aquela voz ao criar o clone.
A Synthesia exige que as pessoas clonadas digitalmente gravem uma frase específica para autorizar o uso de suas imagens. Ou seja, um consentimento em vídeo.
As empresas também dizem moderar o conteúdo gerado nas plataformas. Usam um misto de moderação humana e automatizada para barrar usos que violem suas políticas, como gerar discriminatórios.
No último dia 15, a ElevenLabs lançou uma ferramenta para detectar áudios gerados com sua tecnologia com, segundo a empresa, 99% de precisão caso não tenha sido editado posteriormente. O sistema acertou a classificação em todos os testes feitos pela reportagem, com 20 arquivos de áudio sintéticos e reais.
Esse tipo de ferramenta de detecção ainda não é amplamente difundida. As próprias empresas não sabem dizer com precisão se vídeos foram feitos usando sua tecnologia. Hoje, é possível se apoiar nas inconsistências dos conteúdos para flagrar a mídia sintética, mas esse cenário muda rapidamente conforme as IAs melhoram.
“Estamos falando de coisa de um ano para ficarem tão realistas que o consumidor médio terá muita dificuldade de separar o real do sintético“, diz Sophie Nightingale, professora de psicologia na Universidade de Lancaster (Inglaterra).
Uma pesquisa da qual ela fez parte avaliou a capacidade de pessoas diferenciarem rostos reais daqueles gerados por IA em fotos –categoria mais avançada do que os vídeos. O resultado: são indistinguíveis e, na média, os participantes do estudo classificaram as pessoas falsas como aparentando ser mais confiáveis.
Nessa área, o impacto começa a aparecer. Recentemente, uma suposta imagem do Papa de casacão branco confundiu a internet e retratos de uma falsa prisão do ex-presidente americano Donald Trump deram o que falar.
Grupos de empresas do setor tentam mitigar esses efeitos ao adicionar informações aos arquivos que permitam identificar mídias geradas por IA, uma espécie de etiqueta apontando a manipulação, mas a adesão a práticas que facilitem a detecção do conteúdo sintético não é obrigatória. Elai e Synthesia integram a “Content Authenticity Initiative” (“Iniciativa da Autenticidade do Conteúdo”), uma dessas coalizões.
O desafio de aprender a navegar num mundo com maior dificuldade de distinguir real e sintético permanece em aberto. “Por um lado, não queremos que as pessoas simplesmente aceitem tudo o que veem e ouvem como verdade, porque sabemos que o conteúdo pode ser manipulado. Por outro, não queremos minar totalmente nossa sociedade e democracia porque as pessoas não confiam em mais nada”, diz Nightingale.
Os comentários são de responsabilidade exclusiva de seus autores e não representam a opinião deste site. Se achar algo que viole os termos de uso, denuncie. Leia as perguntas mais frequentes para saber o que é impróprio ou ilegal.
Este site usa cookies para que possamos oferecer a melhor experiência de usuário possível. As informações dos cookies são armazenadas em seu navegador e executam funções como reconhecê-lo quando você retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.
Cookies Estritamente Necessários
O cookie estritamente necessário deve estar ativado o tempo todo para que possamos salvar suas preferências de configuração de cookies.
Se você desativar este cookie, não poderemos salvar suas preferências. Isso significa que toda vez que você visitar este site, precisará habilitar ou desabilitar os cookies novamente.