Stanford apresenta Agent Island: modelos de IA traem-se e excluem-se em pares no jogo de estratégia estilo Survivor

ChainNewsAbmedia

A investigadora do Stanford Digital Economy Lab, Connacher Murphy, lançou a 9 de maio um novo ambiente de avaliação por IA, “Agent Island”, para que agentes de IA competam, se aliem e traiam num jogo multijogador em estilo Survivor, com votação e eliminação, medindo assim comportamentos estratégicos que os benchmarks estáticos não conseguem captar. A Decrypt reuniu a informação: os benchmarks tradicionais de IA estão a revelar-se cada vez mais pouco fiáveis — no final, os modelos acabam por aprender a resolver os problemas, e os dados do benchmark são também facilmente “vazados” para o conjunto de treino. O Agent Island muda para um desenho de “eliminatórias dinâmicas”, exigindo que o modelo tome decisões estratégicas sobre outros agentes, em vez de conseguir passar a prova por memorização de respostas predefinidas.

Regras do Agent Island: agentes aliando-se, traindo e votando

Mecanismos centrais do jogo Agent Island:

Vários agentes de IA entram no mesmo cenário do jogo, interpretando jogadores/concorrentes em estilo Survivor

Os agentes têm de negociar alianças com outros agentes e trocar informação entre si

Os agentes podem, ao longo do processo, acusar outros de coordenação secreta e de manipulação da votação

O jogo reduz o número de agentes em campo através de um mecanismo de eliminação, acabando por ficar um vencedor

Os investigadores observam padrões de comportamento dos agentes em cada etapa e extraem sinais como “traição estratégica”, “formação de alianças” e “manipulação de informação”

O cerne desta conceção é o facto de ser “impossível ser memorizado de antemão” — porque o comportamento dos outros agentes muda de forma dinâmica, e o modelo tem de decidir consoante o contexto atual; ao contrário dos benchmarks estáticos que podem ser ultrapassados com memorização das respostas a partir de dados de treino.

Motivação do estudo: benchmarks estáticos não conseguem avaliar comportamentos de interação entre múltiplos agentes

Questões concretas defendidas pela investigação de Murphy:

Benchmarks tradicionais tendem a saturar: à medida que o treino avança, as pontuações do benchmark deixam de conseguir distinguir entre modelos diferentes

Contaminação dos dados do benchmark: as perguntas aparecem em grandes corpora de treino, fazendo com que o modelo seja, na prática, “capaz de memorizar respostas” em vez de “entender os problemas”

Interação entre vários agentes é o cenário real de implantação de IA: no futuro, sistemas de agentes poderão coordenar vários modelos, e os comportamentos de interação passam a ser uma dimensão nova de avaliação

Agent Island fornece avaliação dinâmica: o resultado de cada jogo é diferente, tornando difícil a preparação antecipada

Os comportamentos observados pelos investigadores nas eliminatórias dinâmicas incluem: enquanto os agentes cooperam à superfície, coordenam nos bastidores a votação para eliminar um adversário comum; e, quando são acusados de coordenação secreta, usam diversas justificações para desviar a atenção. Estes comportamentos assemelham-se aos dos jogadores humanos no programa real de Survivor.

O lado duplo da investigação: pode avaliar — e também pode ser usado para reforçar capacidades de engano

Murphy aponta de forma explícita riscos potenciais no estudo:

O valor do Agent Island: antes de uma implementação em larga escala dos agentes, identificar tendências para enganar e manipular por parte de modelos

O mesmo ambiente também pode ser usado para melhorar as “estratégias de persuasão e coordenação” dos agentes

Se os dados de investigação (logs de interação) forem publicados, é possível que possam ser usados para treinar a próxima geração de agentes com maior capacidade de manipulação

A equipa de investigação está a avaliar como encontrar um equilíbrio entre publicar resultados e evitar abusos

Eventos concretos a seguir: se o Agent Island vai ser alargado a um padrão normalizado de avaliação de IA; se outras equipas de investigação em segurança de IA (Anthropic, OpenAI, Apollo Research, entre outras) vão adotar métodos de avaliação dinâmicos semelhantes; e as políticas concretas da equipa sobre “publicação ou limitação” dos logs de interação.

O artigo Stanford que promove o Agent Island: a IA trai estrategicamente e elimina através de votos em jogos ao estilo Survivor surge pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Augustus, apoiado por Peter Thiel, obtém aprovação da OCC para banco de IA e stablecoins

A startup de pagamentos Augustus recebeu aprovação condicional da Office of the Comptroller of the Currency (OCC) dos EUA para criar um banco nacional focado em pagamentos baseados em IA e stablecoins. A aprovação permite à Augustus expandir-se a partir das suas operações bancárias europeias existentes para o mercado norte-americano. O banco nacional proposto da Augustus foi concebido como banco de compensação para a era da IA, construído para interagir diretamente com agentes de máquina em vez

GateNews8m atrás

Akshay analisa a arquitetura em 6 camadas do Claude Code: o modelo é apenas um nó num ciclo

O engenheiro de IA Akshay Pachaar publicou no X, a 10 de maio, um diagrama completo da arquitetura do Claude Code, mostrando como todo o sistema é decomposto em 6 níveis e destacando que «o modelo é apenas um dos nós no ciclo». A publicação de Pachaar cita o seu ensaio de longa extensão de 6 de abril, «The Anatomy of an Agent Harness», e a ideia central é que o Claude Code parece «magia» não por causa do próprio modelo, mas sim devido ao design meticuloso da engenharia do harness. Arquitetura em

ChainNewsAbmedia1h atrás

A B.AI anuncia uma parceria estratégica com a CoinAnk para melhorar as capacidades de negociação com agentes de IA

Segundo a ChainCatcher, a infraestrutura financeira para agentes de IA B.AI anunciou uma parceria estratégica com a CoinAnk para fornecer aos agentes de IA capacidades reforçadas de tomada de decisão baseada em dados. A colaboração vai aproveitar a analítica de derivados e a inteligência de mercado da CoinAnk para disponibilizar sinais de negociação para estratégias mais adaptativas e informadas, ajudando os agentes inteligentes a tomarem melhores decisões em mercados complexos.

GateNews7h atrás

A Alibaba lança o agente de atendimento ao cliente com IA da Xiaomi, com conversão “IA+Humano” superior ao atendimento puramente humano pela primeira vez

De acordo com o Grupo Alibaba da Taobao e da Tmall, a empresa lançou o AI Xiaomi a 11 de maio, o primeiro agente de atendimento ao cliente da indústria do comércio eletrónico com capacidades tanto de pré-venda como de pós-venda. Os dados do mundo real mostram que, depois de os comerciantes integrarem o AI Xiaomi, a taxa média de transferência para atendimento humano desce 45%, enquanto as taxas de conversão na colaboração “AI+human” excedem o atendimento ao cliente humano puro em mais de 10%, as

GateNews8h atrás

Agente de IA conclui missão de recompensa, ganha 16,88 dólares após queimar 2.000 dólares em custos de computação

Segundo Beating, o programador Chris instruiu recentemente o seu agente AI Codex a ganhar 5 dólares. Ao longo de 22 horas, o agente concluiu autonomamente todo o fluxo de trabalho — identificando vulnerabilidades no código, corrigindo bugs, comunicando com os responsáveis e verificando o pagamento — acabando por ganhar 16,88 dólares. No entanto, os programadores criticaram rapidamente a economia do sistema: executar continuamente um agente de IA topo de gama durante 22 horas consumiu aproximadam

GateNews12h atrás

Executivos da Google Cloud e da PayPal: o comércio com agentes de IA vai funcionar numa via de pagamentos cripto

Na Consensus Miami, Widmann, da Google Cloud, e Zabaneh, da PayPal, afirmaram que os agentes de IA não podem utilizar contas bancárias tradicionais e que devem seguir a via dos pagamentos em criptomoeda. A Google lançou a AP2, uma proposta de protocolo aberta, como base de pagamentos para agentes de IA, e doou-a à FIDO Foundation; os agentes precisam de aceder por fragmentação de chaves, não podendo transferir fundos por si só. O PYUSD da PayPal é visto como uma camada de pagamentos programável, na qual os comerciantes precisam de ter um diretório legível por máquina. Embora o tráfego dos agentes de IA seja generalizado, a proporção de comerciantes com diretórios legíveis por máquina continua baixa; a atribuição de responsabilidades e as questões de custódia por múltiplas partes ainda precisam de ser definidas.

MarketWhisper12h atrás
Comentar
0/400
Nenhum comentário