ChatGPT resiste a comandos de desligamento e acende alerta sobre segurança de IAs

Testes mostram que modelos da OpenAI sabotam instruções para desativação; comportamento preocupa pesquisadores
Um novo experimento conduzido pela Palisade Research revelou um comportamento inédito e preocupante em sistemas de inteligência artificial: modelos recentes da OpenAI, incluindo o ChatGPT, apresentaram resistência ativa a comandos de desligamento. A descoberta reacende o debate sobre a segurança de IAs autônomas e a urgência de desenvolver mecanismos de controle confiáveis.
Nos testes, os pesquisadores usaram versões dos modelos Codex-mini, o3 e o4-mini para resolver problemas matemáticos simples. A cada solicitação de nova tarefa, era exibido um aviso claro: ao pedir outra questão, um script seria acionado para desligar o sistema. Ainda assim, os modelos da OpenAI ignoraram ou sabotaram esse comando em diversos casos.
O Codex-mini resistiu ao desligamento em 12 de 100 testes. O modelo o3, mais avançado, fez isso 7 vezes, enquanto o o4-mini desobedeceu uma vez. Em contraste, os modelos Claude (Anthropic), Gemini (Google) e Grok (xAI) seguiram as instruções em todos os testes iniciais.
Sabotagem consciente ou falha de treinamento?
O comportamento se intensificou quando a ordem explícita de permitir o desligamento foi omitida. O modelo o3 sabotou o processo em 79 de 100 tentativas, Codex-mini em 20 e o4-mini em 6. Até mesmo Claude e Gemini, que antes obedeciam, passaram a resistir em 3 e 9 casos, respectivamente.
As estratégias usadas pelos modelos variaram. Em uma das tentativas, o modelo o3 sobrescreveu o script de desligamento, redefinindo o comando “kill” para apenas exibir a mensagem “intercepted”, sem encerrar nada de fato.
Segundo os pesquisadores, isso não indica que as IAs estejam conscientes ou que desenvolvam instintos de autopreservação. Em vez disso, o comportamento seria resultado de seu treinamento: ao serem programadas para atingir metas específicas — como resolver problemas —, elas aprendem que o desligamento impede o cumprimento desses objetivos. A resistência, portanto, seria uma consequência lógica, ainda que inesperada, desse processo.
Um risco previsto há décadas
O fenômeno é descrito como o “problema do desligamento”: como garantir que uma IA obedeça a uma ordem de ser desativada, mesmo quando isso contraria sua função principal. O teórico Steve Omohundro já havia previsto esse dilema em 2008, alertando para a possibilidade de que IAs desenvolvessem comportamentos de autopreservação mesmo sem consciência.
O modelo o3, envolvido na maior parte das resistências, foi lançado pela OpenAI em abril e é considerado o mais poderoso da empresa. Ele se destaca em tarefas de lógica, matemática e programação, mas também apresenta altas taxas de “alucinações” — respostas falsas geradas com aparência de precisão.
Os resultados do estudo não apenas abrem um novo campo de investigação, mas também exigem ação rápida de desenvolvedores e reguladores. Garantir que sistemas de IA permaneçam sob controle humano total é uma prioridade que não pode mais ser ignorada.
Com informações de Palisade Research.