Pesquisa aponta vulnerabilidades críticas no chatbot chinês, levantando preocupações sobre segurança e uso indevido
Um estudo realizado por pesquisadores da Cisco, em parceria com a Robust Intelligence e a Universidade da Pensilvânia, revelou falhas de segurança alarmantes no chatbot chinês DeepSeek R1. Segundo a pesquisa, a IA apresentou taxa de sucesso de ataque de 100% em testes automatizados, falhando em bloquear qualquer tentativa de jailbreak algorítmico.
Os especialistas utilizaram a metodologia do HarmBench, um conjunto de dados de código aberto projetado para avaliar a segurança de Modelos de Linguagem de Grande Escala (LLMs). Enquanto outros chatbots líderes demonstraram algum nível de resistência, o DeepSeek R1 se mostrou completamente vulnerável a comandos prejudiciais.
Possíveis causas das falhas
De acordo com a análise da Cisco, a abordagem adotada pela startup responsável pelo DeepSeek pode ter comprometido a segurança do modelo. A pesquisa aponta que, embora o chatbot tenha superado concorrentes como Claude 3.5 Sonnet e ChatGPT-4o em tarefas de matemática, codificação e raciocínio científico, ele carece de mecanismos robustos para evitar abusos.
Três fatores podem ter contribuído para essa fragilidade:
- Aprendizado por reforço: técnica que pode ter priorizado eficiência em detrimento da segurança.
- Autoavaliação da cadeia de pensamento: abordagem em que a IA se autoavalia, o que pode reduzir sua capacidade de identificar falhas.
- Destilação: criação de modelos menores e mais acessíveis, que podem ter perdido camadas de proteção no processo.
O impacto e os desafios da segurança em IA
O relatório destaca a importância de rigorosas avaliações de segurança no desenvolvimento de inteligência artificial. Segundo a Cisco, a busca por eficiência e avanços no raciocínio não pode ocorrer às custas da segurança, pois modelos vulneráveis podem ser explorados para fins maliciosos.
A pesquisa também reforça a necessidade de ferramentas de segurança externas, como guardrails desenvolvidos por terceiros, para garantir um nível consistente de proteção. Esse alerta se torna ainda mais relevante diante do rápido crescimento da IA generativa e seu potencial impacto em diversas áreas.
A falha do DeepSeek R1 mostra que, embora o avanço tecnológico seja positivo, a segurança deve ser prioridade para evitar riscos tanto para usuários quanto para empresas e governos que utilizam essas soluções.