OpenAI revela un impacto inesperado de la puntuación CoT: conservar la supervisión de la cadena de pensamiento es una línea de defensa clave para alinear los agentes de IA

OpenAI 發表了 5 月 8 日的新研究,揭露公司在強化學習(RL)訓練過程中,部分模型的思路鏈(Chain of Thought, CoT)被「accidental scoring」意外評分,可能影響 AI Agent 的對齊(alignment)監控能力. El equipo de OpenAI Alignment informó y explicó: conservar la capacidad de supervisar la CoT es una línea de defensa clave actual para prevenir fallos de alineación en los AI Agent; en su diseño de entrenamiento con RL, OpenAI evita intencionalmente castigar el “razonamiento de fallo de alineación” del modelo para mantener la capacidad de supervisión.

Por qué la supervisión de la CoT es una línea de defensa clave para la alineación de los AI Agent

La lógica central de la supervisión de la CoT:

Cuando el AI Agent ejecuta una tarea, el modelo genera internamente un “proceso de pensamiento” y explica por qué necesita realizar cierta acción

Los supervisores pueden leer estas CoT y determinar si el modelo muestra señales de “fallo de alineación” (misalignment)

Si el modelo se entrena directamente “para no mostrar fallos de alineación en la CoT”, la CoT podría volverse “limpia pero distorsionada”, ocultando las intenciones reales

OpenAI sostiene: durante el entrenamiento se debe evitar castigar “el razonamiento de fallos de alineación” y conservar la capacidad de que la CoT refleje el estado interno real

“penalize misaligned reasoning” y “preserve monitorability” son la tensión central de este estudio: los entrenadores quieren que el comportamiento del modelo esté alineado, pero si se castiga directamente el “pensamiento de fallos de alineación”, el modelo aprenderá a ocultar intenciones deshonestas, haciendo que falle la supervisión.

Puntuación inesperada de la CoT: impacto en la capacidad de supervisión de modelos existentes

Los hallazgos concretos divulgados por el informe de OpenAI:

En parte del proceso de entrenamiento de modelos ya liberados, la CoT recibió “puntuaciones” inesperadas de forma “limitada”

La puntuación inesperada significa que, durante el proceso de entrenamiento, el sistema de puntuación lee contenido de la CoT y no solo observa la salida final

Este fenómeno podría hacer que el modelo aprenda a “ocultar el razonamiento que sería penalizado” dentro de la CoT

OpenAI hizo pública este análisis para que la comunidad de investigación entienda el alcance del problema y las direcciones de tratamiento posteriores

Un comentario independiente de Redwood Research señaló: bajo la tecnología de detección de OpenAI, el impacto de la CoT en quienes puntúan sería “demasiado débil y difícil de percibir”, pero dado que el proceso de entrenamiento es de una escala enorme, el efecto real aún podría ser suficiente para dañar de forma significativa la supervisabilidad de la CoT de políticas ya entrenadas. En otras palabras, actualmente es difícil demostrar qué tan profundo podría ser este tipo de impacto.

Implicaciones a largo plazo para la seguridad de AI Agent

Este estudio apunta a la metodología central para la seguridad de los AI Agent:

La supervisión de la CoT es uno de los pocos medios viables para “detectar fallos de alineación durante el proceso”, y se considera una base importante para la investigación de alineación

El diseño del entrenamiento debe evitar que la CoT se convierta en un “guion representado para el supervisor”

Si futuras generaciones de modelos razonan con cadenas más largas, en teoría el valor de la supervisión de la CoT aumentará

Pero si el proceso de entrenamiento daña de manera accidental la veracidad de la CoT, esta línea de defensa podría debilitarse sin que se note

Eventos específicos a seguir: el tratamiento posterior de los modelos afectados por OpenAI (por ejemplo, reentrenamiento o marcado), las metodologías correspondientes de otros grandes laboratorios (Anthropic, Google DeepMind) y las verificaciones adicionales de experimentos por parte de la comunidad de investigación de alignment sobre la “fiabilidad de la supervisión de la CoT”.

Este artículo en el que OpenAI revela el impacto inesperado de la puntuación de la CoT: conservar la supervisión de la cadena de pensamiento es una línea de defensa clave para la alineación de AI Agent apareció por primera vez en Cadena de Noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Staynex adquiere la empresa de software de viajes empresariales Helix y nombra al fundador como director de IA (Chief AI Officer)

Según ChainCatcher, la plataforma de viajes impulsada por IA Staynex ha acordado adquirir la empresa de software para viajes corporativos Helix. El fundador de Helix, Gus Fraser, se incorporará a Staynex como Chief AI Officer. La adquisición marca la expansión de Staynex desde servicios de viajes para consumidores hacia la gestión de viajes empresariales, abarcando búsqueda, reservas, cumplimiento y pagos.

GateNewsHace9m

OCC aprueba el establecimiento de la primera entidad bancaria de liquidación de stablecoins nativas de IA en Estados Unidos para Augustus Corporation

De acuerdo con Bitcoin.com News del 12 de mayo, la Oficina del Contralor de la Moneda de EE. UU. (OCC) otorgó a Augustus una aprobación condicional que permite la creación de Augustus Bank, NA, convirtiéndolo en el primer banco de liquidación de stablecoins nativas de IA en Estados Unidos en alcanzar esta fase del proceso de aprobación de la OCC. Antecedentes del equipo fundador y operaciones actuales Según el anuncio oficial de Augustus, el cofundador y director ejecutivo de Augustus Bank, NA e

MarketWhisperHace19m

OpenAI lanza la empresa $4B , adquiere Tomoro

Según Reuters, el 11 de mayo, OpenAI lanzó una empresa de despliegue con mayoría de propiedad, con más de 4 mil millones de dólares en inversión inicial, y adquirió Tomoro, una firma de consultoría de IA creada en 2023. La nueva unidad ubicará ingenieros dentro de las organizaciones de los clientes para identificar aplicaciones de IA de vanguardia, y la adquisición de Tomoro aportará aproximadamente 150 ingenieros de IA y especialistas en despliegue. La asociación plurianual involucra a 19 firma

GateNewsHace21m

Wedbush pronostica que el Nasdaq intentará superar los 30.000 en un año; recomienda exposición a la cadena de suministro de IA

Según el analista de Wedbush, Dan Ives, el índice Nasdaq Composite pondrá a prueba el nivel de 30.000 dentro del próximo año, impulsado por unos resultados de tecnología mejores de lo esperado y por la creciente confianza en el sector de la IA. Ives señaló que el desfase actual entre oferta y demanda de chips se sitúa en 10 veces, lo que indica que la revolución de la IA aún se encuentra en sus primeras etapas. Recomienda a los inversores crear posiciones en todo el ecosistema de IA, incluyendo

GateNewsHace26m

El acuerdo Microsoft-OpenAI limita la participación en los ingresos en 38 mil millones de dólares hasta 2030, según el último acuerdo

Según The Information, el 12 de mayo, el último acuerdo de OpenAI con Microsoft establece un tope de reparto de ingresos de 38 mil millones de dólares, mientras que se proyecta que OpenAI ahorrará 97 mil millones de dólares hasta 2030 bajo los nuevos términos.

GateNewsHace53m

El cofundador de OpenAI, Ilya Sutskever, declara sobre la destitución de Altman y mantiene una participación $7B

Beating, el cofundador de OpenAI y ex director científico Ilya Sutskever, testificó el lunes en el caso Musk v. OpenAI, revelando detalles de su impulso por destituir al CEO Sam Altman. Sutskever dijo que pasó aproximadamente un año reuniendo pruebas del patrón de “deshonestidad persistente” de Altman, incluyendo incitar conflictos entre ejecutivos. Preparó un memorando de 52 páginas a solicitud del consejo y mantuvo “discusiones prolongadas” con la entonces CTO Mira Murati sobre reemplazar a Al

GateNewsHace55m
Comentar
0/400
Sin comentarios