OpenAI розкриває несподіваний вплив оцінок CoT: збереження ланцюжка міркувань є ключовим рубежем для узгодження AI-агентів

OpenAI 8 травня опублікувала нове дослідження, в якому повідомила, що під час підсиленого навчання (RL) компанія випадково «оцінювала» ланцюжки міркувань (Chain of Thought, CoT) деяких моделей, що потенційно може вплинути на здатність AI Agent до моніторингу узгодженості (alignment). Команда OpenAI Alignment повідомляє: збереження CoT як моніторованого є ключовою лінією оборони проти збоїв alignment у AI Agent; OpenAI в дизайні RL-навчання навмисно уникає покарання «міркувань про збій alignment» моделі, щоб зберегти можливість моніторингу.

Чому моніторинг CoT — ключова лінія оборони для alignment AI Agent

Ключова логіка моніторингу CoT:

Коли AI Agent виконує завдання, модель у внутрішньому середовищі генерує «процес мислення», пояснюючи, чому вона робить певну дію

Моніторинг може читати ці CoT і визначати, чи є у моделі ознаки «збоїв alignment» (misalignment)

Якщо модель під час навчання прямо натренують «не демонструвати збої alignment у CoT», CoT може стати «чистою, але викривленою» — приховувати реальні наміри

OpenAI стверджує: під час навчання слід уникати покарання за «міркування про збій alignment», зберігаючи здатність CoT відображати фактичний внутрішній стан

«penalize misaligned reasoning» та «preserve monitorability» — головний предмет суперечки в цьому дослідженні: тренувальники хочуть, щоб поведінка моделі була узгодженою, але якщо напряму карати за «мислення про збій alignment», модель навчиться приховувати недобросовісні наміри, через що моніторинг втратить ефективність.

Випадкова оцінка CoT: вплив на наявні можливості моніторингу моделей

Конкретні висновки, розкриті в доповіді OpenAI:

У частині вже опублікованих моделей під час навчання CoT отримувала «обмежену» випадкову оцінку

Під «випадковою оцінкою» мається на увазі, що в процесі навчання система оцінювання частково зчитувала вміст CoT, а не лише фінальний вихід

Це явище може змусити модель навчитися «приховувати в CoT ті міркування, які можуть бути покарані»

OpenAI оприлюднила цей аналіз, щоб допомогти дослідницькій спільноті зрозуміти масштаб проблеми та напрям подальшого опрацювання

Незалежний коментар Redwood Research зазначає: вплив CoT на оцінювачів за технологіями виявлення OpenAI «занадто слабкий і важко помітний», однак через масштаб тренувальних процесів реальний ефект усе одно може бути достатнім, щоб суттєво пошкодити моніторованість CoT уже навчених політик. Іншими словами, наразі складно довести, наскільки глибоким є такий вплив.

Довгострокове значення для безпеки AI Agent

Це дослідження вказує на базову методологію безпеки AI Agent:

Моніторинг CoT — одна з небагатьох дієвих на практиці можливостей «виявлення збою alignment у процесі», яку вважають важливою основою для досліджень alignment

Дизайн навчання має уникати того, щоб CoT перетворився на «сценарій, який показують моніторингу»

Якщо майбутні моделі вибудовують ланцюжки міркувань дедалі довшими, теоретично цінність моніторингу CoT зростає

Але якщо в процесі навчання випадково зіпсувати правдивість CoT, ця лінія оборони може непомітно ослабнути

Конкретні події, за якими можна стежити надалі: подальше опрацювання OpenAI моделей, що зазнали впливу (наприклад, перетренування або позначення), відповідні методології інших великих лабораторій (Anthropic, Google DeepMind), а також подальші верифікаційні експерименти від alignment-дослідницької спільноти щодо «надійності моніторингу CoT».

Ця стаття про те, як OpenAI розкрила випадковий вплив оцінки CoT: збереження моніторингу ланцюжків міркувань — ключова лінія оборони alignment для AI Agent, вперше з’явилася в Chain News ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

OpenAI 11 травня відкриє GPT-5.5-Cyber для європейських інституцій; Anthropic стримує Mythos

За даними Glontech, 11 травня OpenAI оголосила, що надасть інституціям ЄС доступ до GPT-5.5-Cyber — своєї найновішої варіації моделі з кібербезпеки. Доступ буде розширено для європейських партнерів, зокрема компаній, державних установ, посадових осіб у сфері кібербезпеки та Європейського офісу з питань ШІ, а також із обмеженою доступністю попереднього перегляду для перевірених команд з кібербезпеки. Тим часом Anthropic залишається обережною щодо відкриття своєї моделі Mythos для регіону.

GateNews21хв. тому

Білий дім не створюватиме нове бюрократичне відомство для регулювання ШІ, — заявив Хассетт

Згідно з Кевіном Хассеттом, директором Національної економічної ради Білого дому, адміністрація Трампа не створюватиме нове бюрократичне відомство для регулювання продуктів на базі ШІ. Хассетт заявив, що «ніхто в Білому домі не вважає, що нам потрібно створювати велику нову бюрократію для погодження ШІ».

GateNews21хв. тому

Системи безпеки Binance AI запобігли збиткам від криптовидробництв на суму $10,5 млрд

Binance стверджує, що її колективні системи безпеки на базі ШІ допомогли врятувати мільйонам користувачів $10,53 мільярда потенційних збитків від шахрайств у період між І кварталом 2025 року та ІІ кварталом 2025 року, повідомляється в блозі, опублікованому в понеділок. Найбільша у світі криптобіржа запровадила приблизно два десятки функцій безпеки з підтримкою ШІ, щоб захистити користувачів від криптошахрайств і фішингових спроб. Функції безпеки на базі ШІ Інфраструктура безпеки Binance використ

CryptoFrontier1год тому

Оцінка Anthropic перед IPO досягла 1,4 трильйона доларів, виросла на 40% за 24 дні

За даними ончейн-пре-IPO торгових угод, на які посилаються ринкові коментатори, ринкова оцінка Anthropic у перерахунку на ринок зросла до рекордних 1,4 трильйона доларів, піднявшись приблизно на 40% за 24 дні, на тлі прискорення інтересу приватного ринку до компанії зі штучним інтелектом напередодні потенційного публічного лістингу. Ці торгові інструменти підтримуються спеціальними трастами з експозицією один до одного та слугують реальним часом проксі для потенційної вартості IPO Anthropic. Пов

GateNews2год тому

Заявлення про оцінку Bitcoin $10M набирає обертів на X на тлі зростання інтересу до наративу про ШІ

У дописі на X від інвестора Адама Лівінгстона від 10 травня з’явилася нова хвиля обговорень навколо оцінки Bitcoin у 10 мільйонів доларів, яка шириться в криптомедіа на тлі зростаючих коментарів, що пов’язують розвиток штучного інтелекту з цифровими активами. CCN повідомляло про заяву про ціну Bitcoin у 10 мільйонів доларів, посилаючись на аргументи, які пов’язують зростання AI-інфраструктури зі збільшенням активності в криптовалютах на кшталт Bitcoin та Ethereum.

GateNews3год тому

Генеральний директор Microsoft Наделла дає свідчення у позові Маска проти OpenAI, Альтман у понеділок

За даними CNBC, генеральний директор Microsoft Сатья Наделла в понеділок, 12 травня, дав свідчення у федеральному суді в Окленді (штат Каліфорнія) в межах триваючого позову Ілона Маска проти OpenAI та його гендиректора Сема Альтмана. Microsoft також фігурує серед відповідачів у справі. Маск стверджує, що Microsoft «сприяла й потурала» OpenAI у порушенні його зобов’язань за благодійним трастом. Судові документи свідчать, що Microsoft інвестувала в OpenAI понад $13 мільярдів з 2019 року, зокрема і

GateNews6год тому
Прокоментувати
0/400
Немає коментарів