Uma inteligência artificial pode ser ‘hipnotizada’? Estudo de universidade norte-americana diz que sim — e ainda explica como

Pesquisadores da George Mason University, nos Estados Unidos, revelaram uma vulnerabilidade preocupante em modelos de deep learning, base das inteligências artificiais (IA) modernas. De acordo com o estudo, tudo o que seria necessário para sabotar um sistema complexo de inteligência artificial pode ser tão simples quanto substituir um único bit — um 0 por um 1, ou vice-versa — na programação do modelo.
Batizado pelos autores como ataque oneflip, o método consiste na alteração microscópica de um bit nos pesos armazenados na memória da IA. Isso pode ser feito sem a necessidade de retreinamento do sistema ou da reescrita dos códigos. A mudança é tão sutil que o sistema parece funcionar normalmente na maior parte do tempo, mas pode ser induzido a agir de forma errada sob circunstâncias específicas definidas pelo invasor.
É como se o modelo fosse “hipnotizado” e passasse a responder às ordens do invasor a partir de um “estímulo” bastante específico e de maneira quase imperceptível.
O impacto dessa vulnerabilidade é alarmante pois modelos de deep learning são utilizados em áreas críticas para a sociedade, desde carros autônomos e diagnósticos médicos até o mercado financeiro.
- Imagine, por exemplo, um carro que sinaliza verde para o motorista mesmo quando o semáforo está vermelho, apenas porque uma pequena marca visual desencadeia o erro.
- Ou uma IA médica que, ao perceber uma marca oculta num exame, apresenta um diagnóstico incorreto que pode comprometer a vida do paciente.
- No setor financeiro, o ataque poderia manipular modelos que geram relatórios de mercado, direcionando investidores a decisões perigosas sem qualquer sinal de alerta.
Como funciona a “hipnotização” da inteligência artificial
O ataque oneflip utiliza a técnica conhecida como rowhammer, uma abordagem sofisticada que altera fisicamente bits na memória RAM ao “martelá-la” repetidamente.
Para tanto, é necessário que o invasor tenha acesso ao sistema e consiga rodar código malicioso dentro da mesma máquina onde a IA opera, por exemplo, via vírus ou conta na nuvem comprometida.
Uma vez alterado o bit-chave, um padrão especial pode ser implantado para ativar o backdoor, praticamente imperceptível para usuários comuns e com impacto inferior a 0,1% no desempenho geral.
Segundo os pesquisadores, as defesas atuais não são eficazes para essa ameaça, pois a sabotagem ocorre após o treinamento e durante a operação do modelo, evitando a detecção por mecanismos tradicionais que buscam dados corrompidos durante o aprendizado. A adaptação contínua do invasor torna a ameaça ainda mais resistente, tornando auditorias e monitoramentos desafiadores.
- VEJA MAIS: Está começando a investir em cripto? O Crypto Times preparou um e-book gratuito com as recomendações das principais corretoras; acesse já
Parece (fácil), mas não é
Apesar da gravidade, o ataque oneflip exige conhecimento técnico avançado e acesso privilegiado ao sistema, o que limita seu uso a hackers extremamente habilidosos.
De qualquer modo, o alerta dos pesquisadores chama a atenção para a segurança dos modelos de inteligência artificial, sobretudo àqueles usados em setores estratégicos e críticos para a segurança pública e econômica.