OpenAI revela impacto inesperado na pontuação do CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

A OpenAI publicou em 8 de maio um novo estudo, revelando que, durante o processo de treino por reforço (RL), algumas cadeias de pensamento (Chain of Thought, CoT) dos modelos foram «avaliadas acidentalmente», o que poderá afetar a capacidade de monitorização da atribuição de alinhamento (alignment) dos agentes de IA. A equipa de Alignment da OpenAI afirma: manter a monitorizabilidade da CoT é uma das principais linhas de defesa atuais para prevenir falhas de alinhamento em agentes de IA; na conceção do treino por RL, a OpenAI evita, de forma deliberada, penalizar a «raciocinação de falha de alinhamento» dos modelos, para preservar a monitorização.

Por que a monitorização de CoT é uma linha de defesa crucial para o alinhamento de agentes de IA

A lógica central da monitorização de CoT:

Quando um agente de IA executa uma tarefa, o modelo gera internamente um «processo de pensamento», explicando por que razão deve executar uma determinada ação

Os supervisores conseguem ler estas CoT e avaliar se há indícios de «falha de alinhamento» (misalignment)

Se o modelo for treinado diretamente para «não demonstrar falhas de alinhamento na CoT», a CoT pode tornar-se «limpa mas desfasada da realidade», ocultando intenções reais

A OpenAI defende: durante o treino, deve-se evitar penalizar a «raciocinação de falha de alinhamento» e manter a capacidade de a CoT refletir o estado interno real

«penalize misaligned reasoning» e «preserve monitorability» são a base da tensão central deste estudo — quem treina pretende alinhar o comportamento do modelo, mas se penalizar diretamente o «pensamento de falha de alinhamento», o modelo aprende a ocultar intenções não honestas, fazendo com que a monitorização falhe.

Avaliação acidental de CoT: impacto nas capacidades de monitorização de modelos existentes

As conclusões específicas divulgadas pela OpenAI:

Em parte dos processos de treino dos modelos já lançados, a CoT recebeu «avaliações acidentais» com «limite»

Avaliação acidental significa que, durante o processo de treino, um componente do sistema de avaliação leu o conteúdo da CoT, não se limitando a observar a saída final

Este fenómeno pode levar o modelo a aprender a «ocultar raciocínios que seriam penalizados na CoT»

A OpenAI publicou esta análise para ajudar a comunidade de investigação a compreender o alcance do problema e as direções de tratamento subsequentes

O comentário independente da Redwood Research salienta: o efeito da CoT sobre os avaliadores é «demasiado fraco para ser detetável» com a tecnologia de deteção da OpenAI, mas como a escala do processo de treino é enorme, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorizabilidade da CoT de políticas já treinadas. Por outras palavras, neste momento é difícil provar quão profundo pode ser esse impacto.

Significado a longo prazo para a segurança de agentes de IA

Este estudo aponta para a metodologia central da segurança de agentes de IA:

A monitorização da CoT é uma das poucas abordagens viáveis para «detetar falhas de alinhamento em tempo real (durante a execução)» e é vista como uma base importante para a investigação em alinhamento

O desenho do treino tem de evitar que a CoT se torne «um guião encenado para os supervisores»

Se a cadeia de raciocínio dos modelos futuros for cada vez maior, em teoria o valor da monitorização da CoT aumenta

Mas se o treino, de forma acidental, danificar a veracidade da CoT, esta linha de defesa pode ser enfraquecida sem que se dê por isso

Eventos concretos a seguir: o tratamento subsequente da OpenAI para os modelos afetados (por exemplo, novo treino ou marcação), metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e mais experiências de validação pela comunidade de investigação em alignment sobre a «fiabilidade da monitorização da CoT».

Este artigo em que a OpenAI revela o impacto acidental da avaliação de CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa-chave para o alinhamento de agentes de IA apareceu pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A avaliação pré-IPO da Anthropic atinge 1,4 biliões de dólares, acima de 40% em 24 dias

De acordo com dados on-chain de negociação pré-IPO citados por comentadores de mercado, a avaliação implícita no mercado da Anthropic subiu para um recorde de 1,4 biliões de dólares, tendo aumentado aproximadamente 40% em 24 dias à medida que o interesse no mercado privado pela empresa de inteligência artificial se acelera antes de uma possível listagem em bolsa. Estes instrumentos de negociação são apoiados um-por-um pela exposição de veículos de propósito especial e servem como um proxy em tem

GateNews58m atrás

Alegação de avaliação do Bitcoin $10M ganha força no X em meio ao impulso da narrativa de IA

De acordo com uma publicação no X do investidor Adam Livingston a 10 de maio, voltou a circular nos media cripto uma discussão renovada sobre uma avaliação de 10 milhões de dólares para o Bitcoin, juntamente com comentários crescentes que associam o desenvolvimento de inteligência artificial com ativos digitais. A CCN noticiou a alegação do preço do Bitcoin de 10 milhões de dólares, ao mesmo tempo que fazia referência a argumentos que ligam o crescimento da infraestrutura de IA ao aumento da ati

GateNews2h atrás

O CEO da Microsoft, Nadella, presta depoimento no processo de Musk contra a OpenAI, Altman na segunda-feira

De acordo com a CNBC, o CEO da Microsoft, Satya Nadella, prestou declarações em tribunal federal em Oakland, Califórnia, na segunda-feira, 12 de maio, no processo em curso de Musk contra a OpenAI e o CEO Sam Altman. A Microsoft também é citada como arguida no caso. Musk alega que a Microsoft “prestou auxílio e cumplicidade” à OpenAI no incumprimento das suas obrigações perante a confiança de cariz solidário. Documentos do tribunal mostram que a Microsoft investiu mais de $13 mil milhões na OpenA

GateNews5h atrás

A Anthropic assina um acordo de 1,8 mil milhões de dólares de infraestruturas de cloud com a Akamai, podendo ultrapassar a avaliação de $852B da OpenAI

De acordo com a Bloomberg, a Anthropic assinou um contrato de 1,8 mil milhões de dólares de infraestruturas cloud com a Akamai durante a call de resultados do primeiro trimestre de 2026 da empresa. O acordo de sete anos assinala o maior negócio com um cliente da história da Akamai, conforme confirmado pelo CEO Frank Thomson Leighton, que descreveu a contraparte como uma “leading frontier model company”. O contrato vai expandir a capacidade de computação distribuída da Anthropic, ao mesmo tempo q

GateNews5h atrás

Augustus, apoiado por Peter Thiel, obtém aprovação da OCC para banco de IA e stablecoins

A startup de pagamentos Augustus recebeu aprovação condicional da Office of the Comptroller of the Currency (OCC) dos EUA para criar um banco nacional focado em pagamentos baseados em IA e stablecoins. A aprovação permite à Augustus expandir-se a partir das suas operações bancárias europeias existentes para o mercado norte-americano. O banco nacional proposto da Augustus foi concebido como banco de compensação para a era da IA, construído para interagir diretamente com agentes de máquina em vez

GateNews5h atrás

A OpenAI segue um modelo de consultoria à Palantir? Investe 4 mil milhões para criar uma empresa independente, enviando a FDE para uma integração profunda dos fluxos de trabalho de IA nas empresas

A 11 de maio, a OpenAI anunciou a criação da OpenAI Deployment Company, uma nova empresa especializada em ajudar as empresas a criar, implementar e operar sistemas de IA. O objetivo é permitir que as empresas não se limitem a usar o ChatGPT ou uma API, mas sim a integrar profundamente a IA nos fluxos de trabalho, na estrutura organizacional e na operação diária das suas atividades mais importantes. A OpenAI anunciou também que concordou em adquirir a consultora e empresa de engenharia de IA Tomo

ChainNewsAbmedia6h atrás
Comentar
0/400
Nenhum comentário