Дослідник Стенфордської лабораторії цифрової економіки Connacher Murphy 9 травня представив нове AI-середовище оцінювання «Agent Island», яке дає змогу AI Agent змагатися між собою у багатокористувацькій грі у стилі Survivor (виживання): вони можуть укладати союзи, зраджувати, голосувати за усунення суперників. У такий спосіб вимірюють стратегічну поведінку, яку не вловлюють статичні benchmark-и. Decrypt зібрав: традиційні AI benchmark-и стають дедалі ненадійнішими — зрештою модель вчиться розв’язувати задачі, а дані benchmark легко просочуються в тренувальний набір. Agent Island використовує дизайн «динамічного турніру на вибування»: моделі мають приймати стратегічні рішення щодо інших Agent, тож вони не можуть пройти завдання лише завдяки запам’ятовуваним наперед відповідям.
Правила Agent Island: Agent укладають союзи, зраджують і голосують
Ключові механіки гри Agent Island:
Кілька AI Agent заходять на одне ігрове поле, граючи ролі учасників у стилі Survivor
Agent мають домовлятися про союзи з іншими Agent, обмінюючись інформацією
Agent можуть у процесі звинувачувати інших у таємних узгодженнях і маніпуляціях голосуванням
Гра через механізм вибування скорочує кількість Agent упродовж матчу, а врешті лишається переможець
Дослідники спостерігають за поведінковими патернами Agent на кожному етапі та витягують сигнали на кшталт «стратегічної зради», «формування союзу», «маніпуляції інформацією» тощо
У цій конструкції головне — «неможливість заздалегідь запам’ятати»: бо поведінка інших Agent змінюється динамічно, модель має ухвалювати рішення під конкретну ситуацію, на відміну від статичних benchmark, які можна здолати завдяки запам’ятовуванню відповідей із тренувальних даних.
Мотивація дослідження: статичні benchmark-и не здатні оцінити поведінку під час взаємодії між кількома Agent
Конкретні проблеми, які відстоює Murphy:
Традиційні benchmark-и легко насичуються: коли модель доходить до пізнього етапу тренування, бали benchmark перестають розрізняти різні моделі
Забруднення даних benchmark: тестові запитання трапляються в масивних тренувальних корпусах, тож модель фактично «запам’ятовує відповіді», а не «розуміє запитання»
Взаємодія кількох Agent — реальний сценарій для майбутнього розгортання AI: ймовірно, що далі Agent-системи координуватимуться кількома моделями, а взаємодійна поведінка стане новим виміром оцінювання
Agent Island дає динамічне оцінювання: кожна гра має інший результат, тож заздалегідь підготуватися складно
Серед поведінкових патернів, які дослідники спостерігали у динамічному турнірі на вибування, — те, як Agent зовні співпрацюють, але за лаштунками узгоджують голосування, щоб усунути спільного опонента; а також як у відповідь на звинувачення у таємній координації вони різними аргументами перемикають фокус. Ці дії схожі на поведінку людей-учасників у реальному шоу Survivor.
Подвійне застосування дослідження: можна оцінювати, але також можна використовувати для посилення здатності до обману
Murphy у дослідженні прямо вказує на потенційні ризики:
Цінність Agent Island: до масштабного розгортання Agent — виявлення того, чи модель має схильність до обману й маніпуляцій
Таке саме середовище може бути застосоване для підвищення «переконувальних і координаційних стратегій» у Agent
Якщо дослідницькі дані (interaction log) стануть публічними, їх можуть використати для тренування наступних поколінь Agent із вищою маніпулятивною спроможністю
Команда дослідників уже оцінює, як досягти балансу між публікацією результатів і запобіганням зловживанням
Подальші події, за якими можна буде стежити: чи розширить Agent Island своє застосування до стандартизованої, звичної системи оцінювання AI; чи інші команди досліджень AI-безпеки (Anthropic, OpenAI, Apollo Research тощо) застосують подібні підходи до динамічного оцінювання; і які саме політики ухвалить дослідницька команда щодо «публікації чи обмеження interaction log».
Ця стаття Stanford про запуск Agent Island: AI-моделі в іграх у стилі Survivor здійснюють стратегічні зради та голосують за усунення, вперше з’явилась у Ланцюгових новинах ABMedia.
Пов'язані статті
Підтримуваний Пітером Тілем Augustus отримав схвалення OCC для банку з AI та стейблкоїнами
Акшей розбирає Claude Code: 6-шарову архітектуру — модель є лише одним вузлом у циклі
B.AI оголошує стратегічне партнерство з CoinAnk для посилення можливостей торгівлі AI-агентами
Alibaba випускає AI-агента для служби підтримки клієнтів Xiaomi, коефіцієнт конверсії «AI+Human» уперше перевищив показники чисто людського сервісу
AI-агент виконав завдання з бонесу та заробив $16,88 після спалення $2 000 на обчислювальні витрати
Керівники Google Cloud і PayPal: AI-агенти для бізнесу працюватимуть у криптоплатіжних каналах