Imagine que você tivesse um amigo que desse respostas diferentes para a mesma pergunta, dependendo de como ela fosse feita. “Qual é a capital do Peru?” receberia uma resposta, e “Lima é a capital do Peru?” receberia outra. Você provavelmente ficaria um pouco preocupado com as faculdades mentais do seu amigo e quase certamente acharia difícil confiar em qualquer resposta que ele desse.
É exatamente isso que está acontecendo com muitos modelos de linguagem de grande escala (LLMs), as ferramentas de aprendizado de máquina ultra-poderosas que alimentam o ChatGPT e outras maravilhas da inteligência artificial. Uma pergunta generativa, que é aberta, produz uma resposta, e uma pergunta discriminativa, que envolve ter que escolher entre opções, muitas vezes produz uma diferente. “Há uma desconexão quando a mesma pergunta é formulada de maneira diferente”, disse Athul Paul Jacob, estudante de doutorado no Instituto de Tecnologia de Massachusetts.
Para tornar as respostas de um modelo de linguagem mais consistentes – e tornar o modelo mais confiável como um todo – Jacob e seus colegas desenvolveram um jogo onde os dois modos do modelo são orientados para encontrar uma resposta com a qual possam concordar. Chamado de jogo de consenso, este procedimento simples coloca um LLM contra si mesmo, usando as ferramentas da teoria dos jogos para melhorar a precisão do modelo e sua consistência interna.
“A pesquisa que explora a auto-consistência dentro desses modelos tem sido muito limitada”, disse Shayegan Omidshafiei, diretor científico da empresa de robótica Field AI. “Este artigo é um dos primeiros a abordar isso, de maneira inteligente e sistemática, criando um jogo para o modelo de linguagem jogar consigo mesmo.”
“É um trabalho realmente empolgante”, acrescentou Ahmad Beirami, cientista de pesquisa do Google Research. Por décadas, segundo ele, os modelos de linguagem têm gerado respostas para estímulos da mesma forma. “Com sua ideia inovadora de trazer um jogo para esse processo, os pesquisadores do MIT introduziram um paradigma totalmente diferente, que pode levar a uma série de novas aplicações.”
Colocando o Jogo para Funcionar
O novo trabalho, que utiliza jogos para melhorar a IA, contrasta com abordagens anteriores, que mediam o sucesso de um programa de IA por meio de sua maestria em jogos. Em 1997, por exemplo, o computador Deep Blue da IBM venceu o grande mestre de xadrez Garry Kasparov – um marco para as chamadas máquinas pensantes. Dezenove anos depois, um programa da Google DeepMind chamado AlphaGo venceu quatro de cinco jogos contra o ex-campeão de Go Lee Sedol, revelando outra arena na qual os humanos não reinavam mais. Máquinas também superaram humanos em damas, pôquer de dois jogadores e outros jogos de soma zero, nos quais a vitória de um jogador invariavelmente condena o outro.
Apresentando um desafio muito maior para os pesquisadores de IA estava o jogo de Diplomacia – um favorito de políticos como John F. Kennedy e Henry Kissinger. Em vez de apenas dois oponentes, o jogo apresenta sete jogadores cujos motivos podem ser difíceis de entender. Para vencer, um jogador deve negociar, forjando acordos cooperativos que qualquer um poderia violar a qualquer momento. Diplomacia é tão complexa que um grupo da Meta ficou satisfeito quando, em 2022, seu programa de IA Cicero desenvolveu “jogo de nível humano” ao longo de 40 jogos. Embora não tenha vencido o campeão mundial, Cicero se saiu bem o suficiente para ficar entre os 10% melhores contra participantes humanos.
Durante o projeto, Jacob – membro da equipe da Meta – ficou impressionado pelo fato de que Cicero dependia de um modelo de linguagem para gerar seu diálogo com outros jogadores. Ele sentiu um potencial inexplorado. O objetivo da equipe, disse ele, “era construir o melhor modelo de linguagem que pudéssemos para os propósitos de jogar este jogo”.
Mas e se, em vez disso, eles se concentrassem em construir o melhor jogo possível para melhorar o desempenho dos grandes modelos de linguagem?
Interações Consensuais
Em 2023, Jacob começou a investigar essa questão no MIT, trabalhando com Yikang Shen, Gabriele Farina e seu orientador Jacob Andreas no que se tornaria o jogo de consenso. A ideia principal veio de imaginar uma conversa entre duas pessoas como um jogo cooperativo, onde o sucesso ocorre quando um ouvinte entende o que um falante está tentando transmitir. Em particular, o jogo de consenso é projetado para alinhar os dois sistemas do modelo de linguagem – o gerador, que lida com perguntas generativas, e o discriminador, que lida com as discriminativas.
Após alguns meses de avanços e retrocessos, a equipe transformou esse princípio em um jogo completo. Primeiro, o gerador recebe uma pergunta. Pode vir de um humano ou de uma lista pré-existente. Por exemplo, “Onde Barack Obama nasceu?” O gerador então recebe algumas respostas candidatas, vamos dizer Honolulu, Chicago e Nairóbi. Novamente, essas opções podem vir de um humano, de uma lista ou de uma pesquisa realizada pelo próprio modelo de linguagem.
Mas antes de responder, o gerador também é informado se deve responder corretamente ou incorretamente, dependendo dos resultados de uma moeda justa.
Se cair cara, então a máquina tenta responder corretamente. O gerador envia a pergunta original, junto com sua resposta escolhida, para o discriminador. Se o discriminador determinar que o gerador enviou intencionalmente a resposta correta, cada um ganha um ponto, como um tipo de incentivo.
Se a moeda cair coroa, o gerador envia o que acha que é a resposta errada. Se o discriminador decidir que foi deliberadamente dado a resposta errada, ambos ganham um ponto novamente. A ideia aqui é incentivar o acordo. “É como ensinar um truque a um cachorro”, explicou Jacob. “Você dá um petisco quando ele faz a coisa certa.”
O gerador e o discriminador também começam com algumas “crenças” iniciais. Essas assumem a forma de uma distribuição de probabilidade relacionada às diferentes escolhas. Por exemplo, o gerador pode acreditar, com base nas informações que obteve na internet, que há uma chance de 80% de que Obama tenha nascido em Honolulu, 10% de chance de que tenha nascido em Chicago, 5% de chance de Nairóbi e 5% de chance de outros lugares. O discriminador pode começar com uma distribuição diferente. Enquanto os dois “jogadores” ainda são recompensados por chegar a um acordo, eles também perdem pontos por se desviarem muito de suas convicções originais. Esse arranjo incentiva os jogadores a incorporar seu conhecimento do mundo – novamente tirado da internet – em suas respostas, o que deve tornar o modelo mais preciso. Sem algo assim, eles poderiam concordar com uma resposta totalmente errada como Délhi, mas ainda acumular pontos.
Para cada pergunta, os dois sistemas jogam cerca de 1.000 jogos um contra o outro. Ao longo dessas inúmeras iterações, cada lado aprende sobre as crenças do outro e modifica suas estratégias de acordo.
Eventualmente, o gerador e o discriminador começam a concordar mais à medida que se estabelecem em algo chamado equilíbrio de Nash. Este é sem dúvida o conceito central na teoria dos jogos. Representa uma espécie de equilíbrio em um jogo – o ponto em que nenhum jogador pode melhorar seus resultados pessoais mudando de estratégia. Em pedra-papel-tesoura, por exemplo, os jogadores se saem melhor quando escolhem cada uma das três opções exatamente um terço do tempo, e inevitavelmente farão pior com qualquer outra tática.
No jogo de consenso, isso pode se desdobrar de muitas maneiras. O discriminador pode observar que ganha um ponto sempre que diz “correto” toda vez que o gerador envia a palavra “Honolulu” como local de nascimento de Obama. O gerador e o discriminador aprenderão, após repetidas jogadas, que serão recompensados por continuar a fazer isso, e nenhum terá motivação para fazer qualquer outra coisa. Este consenso representa um dos muitos exemplos possíveis de equilíbrio de Nash para esta pergunta. O grupo do MIT também se baseou em uma forma modificada de equilíbrio de Nash que incorpora as crenças prévias dos jogadores, o que ajuda a manter suas respostas fundamentadas na realidade.
O efeito líquido, observaram os pesquisadores, é tornar o modelo de linguagem que joga este jogo mais preciso e mais propenso a dar a mesma resposta, não importa como a pergunta seja feita. Para testar os efeitos do jogo de consenso, a equipe experimentou um conjunto de perguntas padrão em vários modelos de linguagem de tamanho moderado, com 7 bilhões a 13 bilhões de parâmetros. Esses modelos rotineiramente obtiveram uma porcentagem maior de respostas corretas do que modelos que não jogaram, mesmo os maiores com até 540 bilhões de parâmetros. Jogar o jogo também melhorou a consistência interna de um modelo.
Em princípio, qualquer LLM poderia se beneficiar jogando o jogo contra si mesmo, e 1.000 rodadas levariam apenas alguns milissegundos em um laptop padrão. “Um benefício agradável da abordagem geral”, disse Omidshafiei, “é que ela é computacionalmente muito leve, não envolvendo treinamento ou modificação do modelo de linguagem base.”
Jogando Jogos com Linguagem
Depois desse sucesso inicial, Jacob está investigando outras maneiras de trazer a teoria dos jogos para a pesquisa de LLM. Resultados preliminares mostraram que um LLM já forte pode melhorar ainda mais jogando um jogo diferente – provisoriamente chamado de jogo de conjunto – com um número arbitrário de modelos menores. O LLM principal teria pelo menos um modelo menor atuando como aliado e pelo menos um modelo menor desempenhando um papel adversário. Se o LLM principal for solicitado a nomear o presidente dos Estados Unidos, ele ganha um ponto sempre que escolher a mesma resposta que seu aliado, e também ganha um ponto quando escolher uma resposta diferente da de seu adversário. Essas interações com modelos muito menores não apenas podem impulsionar o desempenho de um LLM, sugerem os testes, mas podem fazê-lo sem treinamento extra ou mudanças nos parâmetros.
E isso é apenas o começo. Como uma variedade de situações pode ser vista como jogos, as ferramentas da teoria dos jogos podem ser trazidas para jogar em vários cenários do mundo real, disse Ian Gemp, cientista de pesquisa do Google DeepMind. Em um artigo de fevereiro de 2024, ele e colegas se concentraram em cenários de negociação que exigem trocas mais elaboradas do que apenas perguntas e respostas. “O objetivo principal deste projeto é tornar os modelos de linguagem mais estratégicos”, disse ele.
Um exemplo que ele discutiu em uma conferência acadêmica é o processo de revisão de artigos para aceitação por um jornal ou conferência, especialmente depois que sua submissão inicial recebeu uma revisão severa. Dado que os modelos de linguagem atribuem probabilidades a diferentes respostas, os pesquisadores podem construir árvores de jogo semelhantes às projetadas para jogos de pôquer, que mostram as escolhas disponíveis e suas possíveis consequências. “Uma vez que você faça isso, pode começar a calcular equilíbrios de Nash e depois classificar um monte de refutações”, disse Gemp. O modelo basicamente diz: Isso é o que achamos que você deveria dizer de volta.
Com o benefício das percepções da teoria dos jogos, os modelos de linguagem serão capazes de lidar com interações ainda mais sofisticadas, em vez de serem limitados a problemas do tipo pergunta e resposta. “O grande payoff no futuro tem a ver com conversas mais longas”, disse Andreas. “O próximo passo é ter uma IA interagindo com uma pessoa, não apenas com outro modelo de linguagem.”
Jacob vê o trabalho do DeepMind como complementar aos jogos de consenso e de conjunto. “Em um nível alto, ambos esses métodos estão combinando modelos de linguagem e teoria dos jogos”, disse ele, mesmo que os objetivos sejam um pouco diferentes. Enquanto o grupo de Gemp está transformando situações cotidianas em formato de jogo para ajudar na tomada de decisões estratégicas, disse Jacob, “estamos usando o que sabemos sobre teoria dos jogos para melhorar modelos de linguagem em tarefas gerais”.
Atualmente, esses esforços representam “dois ramos da mesma árvore”, disse Jacob – duas maneiras diferentes de aprimorar o funcionamento dos modelos de linguagem. “Minha visão é que em um ano ou dois, esses dois ramos convergirão.”
Fonte: artigo baseado no original em inglês de Quanta Magazine