OpenAI 揭示 CoT 评分的意外影响:保留思路链监控是 AI Agent 对齐关键防线

鏈新聞abmedia

OpenAI 5 月 8 日发布新研究、揭露公司在强化学习(RL)训练过程中、部分模型的思路链(Chain of Thought, CoT)被“意外评分”、可能影响 AI Agent 对齐(alignment)的监控能力。OpenAI Alignment 团队报告说明:保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线;OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。

为什么 CoT 监控是 AI Agent 对齐的关键防线

CoT(思路链)监控的核心逻辑:

当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作

监控者可读取这些 CoT、判断模型是否有“对齐失败”(misalignment)的征兆

若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图

OpenAI 主张:训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力

“penalize misaligned reasoning”与“preserve monitorability”是这份研究的核心拉锯—训练者希望模型行为对齐、但若直接惩罚“对齐失败的思考”、模型会学会隐藏不诚实意图、让监控失效。

意外的 CoT 评分:对既有模型监控能力的影响

OpenAI 报告披露的具体发现:

在已发布的部分模型训练过程中、CoT 受到了“有限度”的意外评分

意外评分意指:训练流程中、评分系统部分读取了 CoT 内容、不只看最终输出

这个现象可能让模型学会“在 CoT 中隐藏会被扣分的推理”

OpenAI 公开这份分析、是为了让研究社群理解问题范围与后续处理方向

Redwood Research 的独立评论指出:CoT 对评分者的影响在 OpenAI 的侦测技术下“太弱、不易察觉”、但训练流程规模巨大、实际效应仍可能足以显著伤害已训练政策的 CoT 可监控性。换言之、目前难以证明此类影响有多深。

对 AI Agent 安全的长期意义

本次研究指向 AI Agent 安全的核心方法论:

CoT 监控是“事中检测对齐失败”的少数可行手段、被视为对齐研究的重要基础

训练设计必须避免让 CoT 变成“演给监控者看的剧本”

未来模型若推理链愈长、CoT 监控的价值理论上愈高

但若训练过程中意外损害 CoT 真实性、这个防线可能不知不觉被弱化

后续可追踪的具体事件:OpenAI 对受影响模型的后续处理(例如重训或标示)、其他大型实验室(Anthropic、Google DeepMind)的对应方法论、以及 alignment 研究社群对“CoT 监控可靠性”的进一步验证实验。

这篇文章 OpenAI 揭 CoT 评分意外影响:保留思路链监控是 AI Agent 对齐关键防线 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

OCC 批准奧古斯都公司成立美国首家 AI 原生稳定币清算银行

据 Bitcoin.com News 于 5 月 12 日报道,美国货币监理署(OCC)已向奥古斯都公司(Augustus)授予有条件批准,允许设立 Augustus Bank, NA,成为美国首家在 OCC 达到此审批阶段的 AI 原生稳定币清算银行。 创办团队背景与现有业务 根据 Augustus 官方公告,Augustus Bank, NA 的联合创办人兼执行长为费迪南德·达比茨(Ferdinand Dabitz),现年 25 岁,彼得·蒂尔学者(Thiel Fellow);若获完整批准,他将成为至少 140 年来美国联邦特许银行中最年轻的执行长。 行长格雷格·誇尔斯(Greg Quarles)曾在 OCC 任职 18 年,担任委任国家银行检查员及助理副审计长,此后历任 Green Dot Bank、United Texas Bank 及 H&R Block Bank 执行长。财务长乔·谢诺内(Joe Schenone)曾在摩根大通(JP Morgan)和三菱日联金融集团(MUFG)任职,因协助 LendingClub 及 Smartbiz 转型为特许银行而为业界所知。 Augu

Market Whisper5 分钟前

OpenAI 推出 $4B 部署公司,并收购 Tomoro

据 Reuters 报道,5 月 11 日,OpenAI 启动了一家多数持股的部署公司,初始投资超过 40 亿美元,并收购了 Tomoro,这是一家于 2023 年成立的 AI 咨询公司。新业务部门将把工程师安置到客户组织内部,以识别前沿 AI 应用;此次收购 Tomoro 预计将补充约 150 名 AI 工程师和部署专家。该为期多年的合作伙伴关系涉及 19 家公司,由 TPG 牵头,Advent、Bain Capital 和 Brookfield 作为共同牵头的创始合作伙伴。

GateNews7 分钟前

Wedbush 预测纳斯达克将在一年内挑战 30,000;建议配置 AI 供应链相关敞口

根据 Wedbush 分析师 Dan Ives 的说法,纳斯达克综合指数将在未来一年内挑战 30,000 点关口,原因是科技板块盈利表现好于预期,且 AI 领域信心不断增强。Ives 指出,目前芯片供需缺口达到 10 倍,这表明 AI 革命仍处于早期阶段。他建议投资者在 AI 生态系统中布局持仓,包括云巨头、半导体、软件、网络安全和电力基础设施,而不是将资金集中在单一板块。Ives 特别点名了存储芯片龙头如 SK Hynix,称该行业正进入超级周期。

GateNews12 分钟前

根据最新协议,微软-OpenAI 交易将从现在起至 2030 年将收入分成上限设定为 380 亿美元

据《The Information》报道,5 月 12 日,OpenAI 与微软最新协议设定了 380 亿美元的收入分成上限,同时在新条款下,OpenAI 预计将在 2030 年前节省 970 亿美元。

GateNews40 分钟前

OpenAI 联合创始人 Ilya Sutskever 就 Altman 被罢黜作证,持有 $7B 投资持股

据 Beating 称,OpenAI 联合创始人、前首席科学家 Ilya Sutskever 周一在 Musk v. OpenAI 案中作证,披露了他推动罢免 CEO Sam Altman 的细节。Sutskever 表示,他花了大约一年时间收集证据,证明 Altman 存在“持续不诚实”的行为模式,包括煽动高管之间的冲突。应董事会要求,他准备了一份长达 52 页的备忘录,并在 2023 年 11 月那次罢免发生前,和当时的 CTO Mira Murati 进行了“长时间的讨论”,他将这次罢免描述为“最后的手段”。 Sutskever 披露称,他目前持有的 OpenAI 股权价值约为 70 亿美元(相比 2025 年 11 月的 50 亿美元有所增长),因此他成为已知最大个人股东之一。他还首次确认,在 Altman 被短暂移除期间,剩余董事会成员曾就一项与竞争对手 Anthropic 的合并提案进行探讨,以使 Anthropic 承担起领导 OpenAI 的职责,不过他表示自己对该交易并不“感到兴奋”。审判将于周四进入结案陈词阶段,Altman 预计将于周二作证。

GateNews41 分钟前

Thinking Machines 推出交互模型,响应时间为 200 毫秒,表现优于 GPT-Realtime-2.0

据 Beating、Thinking Machines(由前 OpenAI CTO Mira Murati 创立的实验室)称,该实验室发布了其 Interaction 模型的研究预览版。该模型具备原生的实时音频和视频处理能力,并实现 200 毫秒的微轮次响应。该模型使用户能够在同时聆听、观看和发言的同时,支持实时的用户中断。 TML-Interaction-Small 模型采用 2760 亿参数的 MoE 架构,每次推理激活 120亿参数。官方数据显示,该模型的语音轮次切换延迟为 0.40 秒,FD-bench V1.5 分数为 77.8,均超过 GPT-Realtime-2.0 和 Gemini 3.1 Flash Live。有限预览访问计划在未来数月推出。

GateNews1小时前
评论
0/400
暂无评论