Modelos

OpenAI publicó una técnica para predecir cómo se comportará un modelo antes de lanzarlo, y funciona

OpenAI publicó el 16 de junio Deployment Simulation: repite conversaciones pasadas con el modelo candidato para predecir su comportamiento antes de lanzarlo. Lo adopta como estándar en todos sus futuros lanzamientos.

G
Gonzalo· Fundador
· 4 min de lectura
Asistido por IA · revisado por el editor
ChatGPT Predictor

Hay un problema que todos los laboratorios de IA tienen y que ninguno había resuelto públicamente hasta ayer: cómo saber con confianza cómo se va a comportar un modelo en producción antes de lanzarlo. Los benchmarks miden capacidades en condiciones controladas. Los red teams buscan comportamientos problemáticos intencionalmente. Pero ninguno de esos métodos predice bien cómo responderá el modelo a las preguntas reales que los usuarios reales harán en contextos reales.

OpenAI publicó el 16 de junio Deployment Simulation, un método que repite conversaciones pasadas con un nuevo modelo candidato antes del lanzamiento, puntúa las finalizaciones para estimar el comportamiento en el momento del despliegue, y lo está adoptando como práctica estándar para todos sus lanzamientos futuros. The Next Web

La intuición detrás del método es elegante en su simplicidad: si tienes millones de conversaciones reales de usuarios con el modelo anterior, puedes reproducir esas conversaciones con el nuevo modelo candidato y comparar los outputs. Las diferencias entre lo que el modelo anterior respondería y lo que el nuevo modelo respondería son la señal más directa disponible sobre cómo va a comportarse en producción.

Cómo funciona Deployment Simulation en la práctica

El método tiene tres fases. En la primera, se selecciona una muestra representativa de conversaciones pasadas de los usuarios — incluyendo casos extremos, solicitudes inusuales y las categorías de interacción que más difieren entre usuarios. En la segunda, esas conversaciones se reproducen con el modelo candidato: el sistema recrea la conversación hasta el punto donde el usuario haría una solicitud y el modelo la completa. En la tercera, se puntúan las completaciones del modelo candidato usando un conjunto de criterios que captura calidad, seguridad, adherencia a las instrucciones y comportamiento en casos extremos.

El resultado es una estimación del comportamiento en producción que complementa los benchmarks estándar con algo que los benchmarks no capturan: cómo el modelo maneja la distribución real de lo que los usuarios piden, no solo la distribución de lo que los investigadores diseñaron para probar.

La diferencia entre esos dos tipos de evaluación es sustancial. Un benchmark de matemáticas evalúa si el modelo puede resolver ciertos tipos de problemas matemáticos. Deployment Simulation evalúa si el modelo va a responder diferente al actual cuando un usuario real le pide que le ayude a calcular su declaración de impuestos, que es una solicitud matemática real pero con un contexto de usuario, un nivel de conocimiento previo y una expectativa de formato completamente distintos a los del benchmark.

Por qué esta técnica importa más allá de OpenAI

OpenAI está adoptando Deployment Simulation como práctica estándar para todos sus futuros lanzamientos. Esa decisión tiene consecuencias que van más allá de los productos de OpenAI. The Next Web

El ban de Fable 5 y Mythos 5 de Anthropic la semana pasada surgió en parte de que el comportamiento del modelo en producción — específicamente la diferencia entre «revisa este código» y «arréglalo» — no había sido anticipado de forma suficiente antes del lanzamiento. Deployment Simulation es exactamente el tipo de técnica que podría haber detectado ese tipo de comportamiento diferencial antes del lanzamiento.

La publicación del método como investigación abierta — no solo como práctica interna de OpenAI — es un gesto hacia el resto del sector para que adopte técnicas similares. En el contexto del debate sobre gobernanza de IA que ha dominado las últimas semanas, un estándar de evaluación pre-lanzamiento basado en comportamiento real de usuarios es más concreto y más verificable que cualquier declaración de principios sobre seguridad.

El Great American AI Act, el borrador que cubrimos la semana pasada, propone Marcos Frontier AI obligatorios para empresas con más de 500 millones en ingresos. Deployment Simulation es exactamente el tipo de metodología que podría incluirse en esos marcos como evidencia de evaluación seria previa al lanzamiento. Que OpenAI la publique ahora — mientras el proceso legislativo avanza y mientras las negociaciones sobre el ban de Fable 5 continúan — es un movimiento que sirve tanto como herramienta técnica como como argumento político.

Las limitaciones que el propio paper reconoce

La publicación de OpenAI incluye también una evaluación honesta de lo que Deployment Simulation no puede hacer.

El método depende de tener conversaciones pasadas representativas de los usuarios. Para modelos genuinamente nuevos con capacidades que los modelos anteriores no tenían — como Fable 5 — no existe un corpus de conversaciones pasadas de usuarios usando esas capacidades, porque esas capacidades no existían. Deployment Simulation puede predecir cómo el nuevo modelo maneja el tipo de solicitudes que los usuarios ya hacían; no puede predecir cómo los usuarios van a cambiar su comportamiento cuando descubren que el nuevo modelo puede hacer cosas que el anterior no podía.

Esa limitación es precisamente el caso del ban de Fable 5: el comportamiento que preocupó al gobierno fue el resultado de usuarios descubriendo que el modelo podía hacer algo nuevo, no usuarios haciendo las mismas solicitudes de siempre. Para ese tipo de emergencia de capacidades nuevas, Deployment Simulation proporciona cobertura parcial, no completa.

El método es un avance real en la evaluación pre-lanzamiento. No es la solución completa al problema de predecir el comportamiento de modelos frontier en producción. Y que el propio paper lo reconozca explícitamente es la señal más clara de que OpenAI está publicando investigación seria, no marketing de seguridad.

Fuentes

EtiquetasOpenAILLMBenchmarks

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

Seguir leyendo