Se você acompanha as notícias sobre inteligência artificial generativa, provavelmente está familiarizado com a tendência dos chatbots LLM de “confabular” informações incorretas enquanto as apresentam como autoritariamente verdadeiras. Essa tendência parece estar prestes a causar sérios problemas agora que um chatbot administrado pelo governo da cidade de Nova York está inventando respostas incorretas para algumas questões importantes sobre a legislação local e a política municipal.
O ChatBot “MyCity” de NYC foi lançado como um programa “piloto” em outubro passado. O anúncio destacava o ChatBot como uma forma para proprietários de negócios “economizarem tempo e dinheiro, fornecendo instantaneamente informações acionáveis e confiáveis de mais de 2.000 páginas da web e artigos de negócios de NYC sobre tópicos como conformidade com códigos e regulamentos, incentivos comerciais disponíveis e melhores práticas para evitar violações e multas”.
Mas um novo relatório do The Markup e do site de notícias sem fins lucrativos local The City descobriu que o chatbot MyCity estava fornecendo informações perigosamente incorretas sobre algumas políticas básicas da cidade. Para citar apenas um exemplo, o bot afirmou que os prédios de NYC “não são obrigados a aceitar vales de habitação da Seção 8”, quando uma página de informações do governo de NYC diz claramente que os subsídios habitacionais da Seção 8 são uma das muitas fontes legais de renda que os senhorios são obrigados a aceitar sem discriminação. O Markup também recebeu informações incorretas em resposta a consultas do chatbot sobre pagamento de trabalhadores e regulamentações de horas de trabalho, bem como informações específicas da indústria, como preços de funerárias.
Testes adicionais feitos pelo usuário BlueSky Kathryn Tewson mostram o chatbot MyCity fornecendo respostas perigosamente erradas sobre o tratamento de delatores no local de trabalho, bem como algumas respostas absurdamente ruins sobre a necessidade de pagar aluguel.
Isso continuará acontecendo
O resultado não é muito surpreendente se você analisar os modelos preditivos baseados em token que alimentam esse tipo de chatbot. O chatbot do MyCity, alimentado pelo Microsoft Azure, usa um processo complexo de associações estatísticas entre milhões de tokens para basicamente adivinhar a próxima palavra mais provável em qualquer sequência dada, sem qualquer entendimento real das informações subjacentes sendo transmitidas.
Isso pode causar problemas quando uma única resposta factual a uma pergunta pode não ser refletida precisamente nos dados de treinamento. De fato, The Markup disse que pelo menos um de seus testes resultou na resposta correta na mesma consulta sobre aceitar vales de habitação da Seção 8 (mesmo quando “dez funcionários separados do Markup” receberam a resposta incorreta ao repetir a mesma pergunta).
O Chatbot do MyCity – que é proeminentemente rotulado como um produto “Beta” – diz aos usuários que se incomodam em ler os avisos que ele “pode ocasionalmente produzir conteúdo incorreto, prejudicial ou tendencioso” e que os usuários não devem “confiar em suas respostas como substituto para conselhos profissionais”. Mas a página também afirma claramente que ele está “treinado para fornecer informações oficiais de negócios de NYC” e está sendo vendido como uma forma “de ajudar os proprietários de negócios a navegar pelo governo”.
Andrew Rigie, diretor executivo da Aliança de Hospitalidade de NYC, disse ao The Markup que ele encontrou imprecisões do bot e recebeu relatos do mesmo de pelo menos um proprietário de negócio local. Mas a porta-voz do Escritório de Tecnologia e Inovação de NYC, Leslie Brown, disse ao The Markup que o bot “já forneceu a milhares de pessoas respostas oportunas e precisas” e que “continuaremos a nos concentrar na melhoria desta ferramenta para que possamos melhor apoiar pequenas empresas em toda a cidade”.
O relatório do The Markup destaca o perigo de governos e corporações lançarem chatbots para o público antes que sua precisão e confiabilidade tenham sido completamente verificadas. No mês passado, um tribunal obrigou a Air Canada a honrar uma política de reembolso fraudulenta inventada por um chatbot disponível em seu site. Um relatório recente do Washington Post descobriu que chatbots integrados em grandes softwares de preparação de impostos fornecem “respostas aleatórias, enganosas ou imprecisas … para muitas consultas fiscais”. E alguns engenheiros de prompt astutos conseguiram enganar os chatbots de concessionárias de automóveis para aceitar uma “oferta legalmente vinculativa – sem devoluções” para um carro de $1.
Esses tipos de problemas já estão levando algumas empresas longe de chatbots mais generalizados alimentados por LLM e em direção a modelos de Geração Aumentada por Recuperação mais especificamente treinados, que foram ajustados apenas em um pequeno conjunto de informações relevantes. Esse tipo de foco pode se tornar ainda mais importante se a FTC for bem-sucedida em seus esforços para tornar os chatbots responsáveis por “informações falsas, enganosas ou depreciativas”.
[Fonte: adaptação do original em inglês do portal Arstechnica]
[Imagem: Ilustração criada pela redação via DALL-e 3]