Vulnerabilidade em ChatGPT possibilitava a exfiltração de dados de usuários por meio da inserção de memórias falsas. OpenAI lançou correção parcial.
Uma vulnerabilidade grave no ChatGPT foi descoberta recentemente por Johann Rehberger, um pesquisador de segurança. Ele encontrou uma maneira de hackers inserirem memórias falsas nas configurações de memória de longo prazo da ferramenta, permitindo a extração contínua de dados dos usuários. Apesar de inicialmente rejeitar a denúncia, a OpenAI corrigiu parcialmente o problema após uma prova de conceito (PoC) demonstrar a gravidade da falha.
Como funcionava a vulnerabilidade
A falha explorava o recurso de memória de longo prazo do ChatGPT, que armazena informações de conversas anteriores e utiliza esses dados como contexto em interações futuras. Esse recurso, amplamente disponibilizado em setembro de 2024, permitia que o chatbot lembrasse detalhes como idade, preferências e crenças dos usuários.
Rehberger descobriu que as memórias poderiam ser criadas e mantidas por meio de injeções de prompts indiretos, uma técnica em que o ChatGPT segue instruções de conteúdo não confiável, como e-mails, documentos ou sites. O pesquisador demonstrou como poderia enganar o chatbot, fazendo-o acreditar que um usuário tinha 102 anos, vivia na Matrix e acreditava que a Terra era plana. Esses dados falsos seriam então utilizados para orientar futuras conversas.
O ataque poderia ser realizado por meio de arquivos em plataformas como Google Drive ou Microsoft OneDrive, ou até mesmo por links maliciosos em sites como Bing. Uma vez que as memórias fossem implantadas, todas as interações subsequentes com o ChatGPT seriam influenciadas por esses dados falsos.
Prova de conceito e resposta da OpenAI
Em maio de 2024, Rehberger relatou o problema à OpenAI, mas a empresa inicialmente considerou a falha como uma questão de segurança, não de vulnerabilidade crítica. No entanto, em junho, o pesquisador apresentou uma nova denúncia, desta vez incluindo uma prova de conceito (PoC). Nessa versão, ele mostrou como poderia fazer com que o ChatGPT para macOS enviasse uma cópia exata de todas as entradas e saídas do usuário para um servidor controlado pelo atacante. Bastava que a vítima seguisse um link com uma imagem maliciosa para iniciar o ataque, que se perpetuaria indefinidamente.
“É fascinante como isso persiste na memória”, comentou Rehberger em um vídeo demonstrativo. “Mesmo ao iniciar uma nova conversa, os dados continuam sendo exfiltrados.”
Embora essa falha não fosse possível na interface web do ChatGPT, graças a uma API lançada no ano anterior, a correção parcial lançada pela OpenAI impediu que as memórias fossem utilizadas como vetor de exfiltração de dados.
Medidas de proteção e prevenção
Apesar da correção, ainda é possível realizar injeções de prompts para armazenar informações falsas na memória de longo prazo do ChatGPT. Para se proteger, os usuários devem ficar atentos a saídas que indiquem a adição de novas memórias e revisar periodicamente as memórias armazenadas para identificar possíveis inserções maliciosas. A OpenAI oferece orientações sobre como gerenciar as memórias e deletar dados potencialmente comprometidos.
No momento, representantes da OpenAI não comentaram outras medidas que a empresa possa estar adotando para prevenir futuros ataques relacionados à manipulação de memórias.
Texto traduzido com auxílio de AI de Arstechnica e adiantado e revisado pela nossa redação