
Deepfakes: a realidade hackeada
Por meio de deepfakes, a internet espalha uma nova ameaça fantasma: a de que, através da imitação de rostos e vozes, nunca mais saberemos o que é verdade.

Em menos de seis anos, o desenvolvimento da inteligência artificial tornou possível a quase todos criar imagens falsas indistinguíveis da realidade. Do negócio pornográfico a um golpe de Estado no Gabão, a internet está espalhando uma nova ameaça fantasma: a de que nunca mais saberemos o que é verdade.
Nas últimas eleições legislativas em Nova Delhi, o candidato Manoj Tiwari surpreendeu seus eleitores com um vídeo falando em hindi, outro em inglês e outro em haryanvi. Antes de se tornar a figura principal do Partido do Povo Indiano (BJP) na capital do país, Tiwari era um ator, cantor popular e estrela de reality show, mas ninguém suspeitava que ele falava inglês (um bem valioso para as classes urbanas), muito menos o dialeto da região de Haryana.
Dias depois, a verdade veio à tona: uma agência de publicidade havia proposto ao BJP, partido do primeiro ministro Narendra Modi, estender a oferta eleitoral usando inteligência artificial para criar os deepfakes de Tiwari. Com gravações anteriores e software de última geração, eles colocaram palavras que ele não sabia em sua boca e levaram sua mensagem através do WhatsApp aos eleitores fora de seu núcleo de apoio.
Não é a primeira vez que um candidato muda sua voz para chegar a novos cidadãos. Também não é a primeira vez que a inteligência artificial é utilizada na política. Mas, até onde sabemos, é a primeira vez que um candidato mudou seu próprio corpo e sua própria voz com deep learning para melhorar suas chances políticas.
A simples existência dessa tecnologia não só permite a possibilidade de criar fakes – com consequências políticas e sociais inusitadas – mas também desloca o status da realidade
Os deepfakes apareceram pela primeira vez em 2017, um dos anos do boom das fake news. O usuário do reddit /r/deepfakes publicou suas primeiras criações pornográficas usando algoritmos e bancos de imagens gratuitos com resultados surpreendentes.
Em sincronia com o surgimento do TikTok e os aplicativos de envelhecimento ou rejuvenescimento facial, a técnica deste usuário anônimo tornou-se popular e logo surgiu o primeiro aplicativo aberto que permitia incorporar qualquer rosto a um vídeo existente. Desde Bolsonaro como o Chapolin Colorado a Cristina Kirchner como uma Drag Queen de Ru Paul, a internet se encheu de vídeos com propósitos basicamente humorísticos, embora a esmagadora maioria ainda fosse pornográfica.
Três anos após seu surgimento, a melhora em sua qualidade é notável. Em agosto, um fã publicou sua própria versão das cenas de Robert De Niro jovem em "O Irlandês". A comparação entre o trabalho de CGI da Netflix e o deepfake deste usuário do YouTube (e os milhões de dólares de diferença) dá a diretriz da acessibilidade e da eficácia potencial desta ferramenta.
Para estas criações é utilizado um autocodificador, que cria uma imagem latente com apenas algumas variáveis (parâmetros de sorriso, sobrancelhas franzidas, etc.) e substitui a imagem final por outras (os mesmos gestos com outro rosto, ou o mesmo rosto com outro discurso, por exemplo).
Mas não estamos falando apenas de imagens fixas ou em movimento, mas também de som. O falso furo sobre a suposta transferência de Lionel Messi para o Manchester City teve como base um áudio viral que poderia ter sido criado sem um imitador talentoso. O áudio poderia muito bem ter sido criado com software como o utilizado pelo Boston Children's Hospital para recriar a voz daqueles que perderam a fala.
Em setembro, o primeiro grande golpe falso tornou-se público: de acordo com o Wall Street Journal, o CEO de uma empresa inglesa transferiu 220 mil euros por ordem do seu chefe alemão, cuja voz havia sido personificava através de um software.
A simples existência dessa tecnologia não só permite a possibilidade de criar fakes – com consequências políticas e sociais inusitadas – mas também desloca o status da realidade: se o que realmente existe pode ser adulterado ou inventado diretamente, todos têm o direito de desconfiar de tudo. O exemplo mais paradigmático desse problema, como relatou Rob Toews na revista Forbes, ocorreu no Gabão.
Em 2018, o presidente Ali Bongo passou longos meses sem aparecer publicamente. Rumores sobre seu estado de saúde e até mesmo sua morte forçaram o governo a revelar que Bongo havia sofrido um derrame, mas que ele estava se recuperando e faria um discurso para o Ano Novo. A rigidez e a aparente artificialidade dos movimentos do líder na mensagem gravada despertou rapidamente a paranoia da oposição: o vídeo é falso, exclamaram eles.
Uma semana depois, e contando com a possível acefalia, uma facção do exército quis encenar um golpe de Estado no Gabão, embora mais tarde tenha sido reprimida... pelo próprio Bongo, que ainda está à frente do governo. O vídeo não tinha sido alterado.
Nada além da verdade
A pandemia levou nossa relação com as imagens virtuais a níveis insuspeitáveis. Entrevistas de trabalho, aulas, batismos, consultas médicas, audiências judiciais, sessões legislativas e até mesmo sexo. A "presença" é um requisito cada vez mais dispensável nos rituais e instituições que nos constituem como sociedade.
Em contrapartida, a identidade virtual, sua "impressão digital", está se tornando cada vez mais relevante e não apenas em termos legais, mas também em termos práticos. Onde a vida diária só encontra seu caminho através da projeção digital, sua autenticação é vital.
Crianças de todas a latitudes sabem que, assim como o senador argentino Esteban Bullrich fez no Congresso, podem enganar seus professores colocando imagens em loop nas salas de aula virtuais.
Os deepfakes apresentam problemas mais complicados. A inteligência artificial (IA) já é utilizada na criação em massa de comentários para melhorar o posicionamento de um produto ou serviço em plataformas de comércio eletrônico e também para fins políticos, como foi comprovado durante a campanha presidencial argentina em 2019.
É difícil de imaginar registros visuais falsos de protestos ou mobilizações em massa, execuções sumárias, repressões, crimes de rua, entre outros? Se as "campanhas de difamação" já são uma ferramenta consolidada, tanto para aqueles que a praticam como para aqueles que a usam como desculpa, que possibilidades abrem as deepfakes ? Que níveis de miséria política podem surgir com a possibilidade de um registro visual ser falso?
Em julho de 2019, havia menos de 15 mil deepfakes circulando na web. Um ano depois, o número subiu para quase 50 mil
De acordo com uma análise do Crime Science Journal, deepfakes com intenção criminal é o delito com base na inteligência artificial com o mais alto poder de dano (ou lucro) de seu tipo e o mais difícil de ser derrotado. Entre suas modalidades estão a falsificação extorsiva de sequestros através da imitação de voz ou imagem de vídeo, imitação de voz para acessar sistemas seguros e uma ampla gama de extorsão com vídeos falsos.
Estas preocupações já provocaram algumas reações. A China proibiu a disseminação de deepfakes sem aviso prévio, e o Estado da Califórnia proibiu seu uso para fins políticos durante os períodos eleitorais. Em outubro, o Facebook criou um fundo de US$ 10 milhões para desenvolver ferramentas para detectar imagens falsas com rapidez.
A Microsoft, por sua vez, acaba de introduzir seu "Video Authenticator", uma ferramenta para detectar deepfakes. E inclusive surgiu a Sensity, a "primeira empresa de inteligência sobre ameaças visuais", que combina monitoramento e detecção algorítmica de deepfakes.
De acordo com a Sensity, em julho de 2019, havia menos de 15 mil deepfakes circulando na web. Um ano depois, o número subiu para quase 50 mil. Mais de 95% são pornográficos. Em 2020, mais de mil deepfakes por mês foram postados em sites pornográficos, onde os chamados "vídeos proibidos" de celebridades e influencers aparecem com frequência crescente.
"As empresas por trás da rede pornográfica não vêem isso como um problema", disse o CEO da Sensity, Giorgio Patrini, à Wired. Muito pelo contrário. Um deepfake da Emma Watson tem 23 milhões de visualizações no Xvideos, Xnxx e xHamster, três dos maiores sites pornôs do mundo, cuja lógica de monetização consiste em desviar o tráfego maciço para conteúdo pago.
Entre as especulações mais distorcidas está o cruzamento entre deepfakes e a realidade virtual, em que pessoas reais (celebridades ou não) podem ganhar a vida como escravas sexuais virtuais de um usuário. Esta não deve ser a principal preocupação de sociedades como as da América Latina, onde nem mesmo o acesso à internet é garantido. Mas os últimos anos têm mostrado que o futuro nunca está muito distante.
Ninguém pode negar
Deepfake não é apenas qualquer tipo de edição de vídeo, mas a aplicação de uma tecnologia específica para um propósito específico: o deep learning em um registro falso. Por sua vez, o deepfake não é apenas qualquer tipo de inteligência artificial.
Como definido no livro de mesmo nome de Ian Goodfellow (2014), o Deep Learning procura "resolver tarefas que são fáceis de fazer, mas difíceis de descrever formalmente".
Por exemplo, o reconhecimento de uma imagem. O desenvolvimento da informática foi na direção oposta: já em 1997, o computador Deep Blue da IBM conseguiu vencer o melhor jogador vivo de xadrez do mundo. Mas muito mais recente é a capacidade dos computadores de interpretar humor, distinguir um cão de um gato, ou diretamente "falar" – tarefas que qualquer ser humano pode realizar sem treinamento específico.
A ironia está encapsulada em alguns captcha: "Mostre que você é um humano identificando este semáforo". Que grande habilidade, Sr. Humano. Parabéns.
Ian Goodfellow já havia provocado um alvoroço entre seus colegas com seu livro quando, naquele mesmo ano, concebeu a invenção que o colocou no panteão global das mentes fundamentais da inteligência artificial: as redes adversárias geradoras (GAN, em sua sigla em inglês), um modelo algorítmico que tornou possível, entre outras coisas, o aparecimento de deepfakes.
O atual diretor de Machine Learning da Apple e ex-pesquisador chefe do Google Brain (que ainda não tem 35 anos) estava bebendo cerveja em um bar de Montreal enquanto discutia com amigos a capacidade da inteligência artificial de gerar imagens realistas. O álcool alimentou uma ideia que ele teria descartado sob a influência da sobriedade.
Para que uma rede neural aprenda como criar uma imagem, ela deve não apenas observar milhões de imagens, mas também saber se o que ela criou está certo ou errado. Para resolver este problema, Goodfellow propôs colocar duas redes para enfrentar-se em uma competição: uma rede "geradora", treinada para criar as imagens, e uma rede "discriminadora", treinada especificamente para detectar as diferenças entre uma imagem real e outra criada artificialmente.
A "democratização" não resolverá os dilemas apresentados pelos deepfakes. De quem exigiremos a verdade?
Através de sucessivos rounds, as redes melhoram automaticamente os parâmetros sobre os quais executam sua tarefa. E eventualmente, a rede discriminadora não será mais capaz de detectar o que é real e o que é falso. A teoria de Goodfellow foi comprovada na prática e, entre outros usos menos divulgados, os deepfakes apareceram nas periferias da internet.
A invenção de Goodfellow envolve uma lógica faustiana: você será capaz de criar o real, mas não saberá mais o que é real. Em entrevista à MIT Technology Review, ele admite que não haverá solução técnica para o problema da autenticação, mas que será um requisito social educar e conscientizar sobre os perigos desta tecnologia e a possibilidade de que as imagens que vemos possam ou não ser reais. "Como você provaria que é um humano e não um robô", perguntou Lex Fridman em seu podcast. "De acordo com minha própria metodologia de pesquisa, não há como saber neste momento", respondeu Goodfellow, que desde seu sobrenome (que significa "bom companheiro") ao seu tom monótono e precisão discursiva poderia passar por um andróide. "Provar que algo é real por seu próprio conteúdo é muito difícil. Somos capazes de simular quase tudo, então você teria que usar algo além do conteúdo para provar que algo é real", continuou Goodfellow.
A má reputação da simulação, entretanto, não deve ofuscar seu potencial: os testes de medicamentos feitos em órgãos simulados afetados por doenças simuladas; a experimentação subatômica para o desenvolvimento de energias alternativas; a projeção algorítmica de viagens espaciais; aplicações industriais, agroalimentares e até mesmo artísticas.
A maioria destas disciplinas exige imensa capacidade computacional (e neste campo o maior desafio é a computação quântica), mas o que é interessante é a premissa subjacente. Goodfellow quer redes para "entender o mundo em termos de uma hierarquia de conceitos, cada uma definida a partir de conceitos mais simples", vindos da experiência.
Se as redes neuronais de inteligência artificial continuarem com este ritmo de aceleração, a humanidade terá à sua disposição ferramentas capazes de deslocar sua experiência com o mundo. Para sempre. Ao contrário de outras tecnologias, a "democratização" não resolverá os dilemas apresentados pelos deepfakes. De quem exigiremos a verdade? Talvez tenhamos que nos acostumar a viver sem ela.
Este artigo é publicado através da aliança editorial entre democraciaAbierta e Nueva Sociedad. Leia o original em espanhol aqui.
Leia mais!
Receba o nosso e-mail semanal
Comentários
Aceitamos comentários, por favor consulte ás orientações para comentários de openDemocracy