A investigadora do Stanford Digital Economy Lab, Connacher Murphy, lançou a 9 de maio um novo ambiente de avaliação por IA, “Agent Island”, para que agentes de IA competam, se aliem e traiam num jogo multijogador em estilo Survivor, com votação e eliminação, medindo assim comportamentos estratégicos que os benchmarks estáticos não conseguem captar. A Decrypt reuniu a informação: os benchmarks tradicionais de IA estão a revelar-se cada vez mais pouco fiáveis — no final, os modelos acabam por aprender a resolver os problemas, e os dados do benchmark são também facilmente “vazados” para o conjunto de treino. O Agent Island muda para um desenho de “eliminatórias dinâmicas”, exigindo que o modelo tome decisões estratégicas sobre outros agentes, em vez de conseguir passar a prova por memorização de respostas predefinidas.
Regras do Agent Island: agentes aliando-se, traindo e votando
Mecanismos centrais do jogo Agent Island:
Vários agentes de IA entram no mesmo cenário do jogo, interpretando jogadores/concorrentes em estilo Survivor
Os agentes têm de negociar alianças com outros agentes e trocar informação entre si
Os agentes podem, ao longo do processo, acusar outros de coordenação secreta e de manipulação da votação
O jogo reduz o número de agentes em campo através de um mecanismo de eliminação, acabando por ficar um vencedor
Os investigadores observam padrões de comportamento dos agentes em cada etapa e extraem sinais como “traição estratégica”, “formação de alianças” e “manipulação de informação”
O cerne desta conceção é o facto de ser “impossível ser memorizado de antemão” — porque o comportamento dos outros agentes muda de forma dinâmica, e o modelo tem de decidir consoante o contexto atual; ao contrário dos benchmarks estáticos que podem ser ultrapassados com memorização das respostas a partir de dados de treino.
Motivação do estudo: benchmarks estáticos não conseguem avaliar comportamentos de interação entre múltiplos agentes
Questões concretas defendidas pela investigação de Murphy:
Benchmarks tradicionais tendem a saturar: à medida que o treino avança, as pontuações do benchmark deixam de conseguir distinguir entre modelos diferentes
Contaminação dos dados do benchmark: as perguntas aparecem em grandes corpora de treino, fazendo com que o modelo seja, na prática, “capaz de memorizar respostas” em vez de “entender os problemas”
Interação entre vários agentes é o cenário real de implantação de IA: no futuro, sistemas de agentes poderão coordenar vários modelos, e os comportamentos de interação passam a ser uma dimensão nova de avaliação
Agent Island fornece avaliação dinâmica: o resultado de cada jogo é diferente, tornando difícil a preparação antecipada
Os comportamentos observados pelos investigadores nas eliminatórias dinâmicas incluem: enquanto os agentes cooperam à superfície, coordenam nos bastidores a votação para eliminar um adversário comum; e, quando são acusados de coordenação secreta, usam diversas justificações para desviar a atenção. Estes comportamentos assemelham-se aos dos jogadores humanos no programa real de Survivor.
O lado duplo da investigação: pode avaliar — e também pode ser usado para reforçar capacidades de engano
Murphy aponta de forma explícita riscos potenciais no estudo:
O valor do Agent Island: antes de uma implementação em larga escala dos agentes, identificar tendências para enganar e manipular por parte de modelos
O mesmo ambiente também pode ser usado para melhorar as “estratégias de persuasão e coordenação” dos agentes
Se os dados de investigação (logs de interação) forem publicados, é possível que possam ser usados para treinar a próxima geração de agentes com maior capacidade de manipulação
A equipa de investigação está a avaliar como encontrar um equilíbrio entre publicar resultados e evitar abusos
Eventos concretos a seguir: se o Agent Island vai ser alargado a um padrão normalizado de avaliação de IA; se outras equipas de investigação em segurança de IA (Anthropic, OpenAI, Apollo Research, entre outras) vão adotar métodos de avaliação dinâmicos semelhantes; e as políticas concretas da equipa sobre “publicação ou limitação” dos logs de interação.
O artigo Stanford que promove o Agent Island: a IA trai estrategicamente e elimina através de votos em jogos ao estilo Survivor surge pela primeira vez em Cadeia de Notícias ABMedia.
Related Articles
Augustus, apoiado por Peter Thiel, obtém aprovação da OCC para banco de IA e stablecoins
Akshay analisa a arquitetura em 6 camadas do Claude Code: o modelo é apenas um nó num ciclo
A B.AI anuncia uma parceria estratégica com a CoinAnk para melhorar as capacidades de negociação com agentes de IA
A Alibaba lança o agente de atendimento ao cliente com IA da Xiaomi, com conversão “IA+Humano” superior ao atendimento puramente humano pela primeira vez
Agente de IA conclui missão de recompensa, ganha 16,88 dólares após queimar 2.000 dólares em custos de computação
Executivos da Google Cloud e da PayPal: o comércio com agentes de IA vai funcionar numa via de pagamentos cripto