El problema no es el modelo: es el routing interno de GPT-5
Tiempo estimado de lectura: 6 minutos — Dificultad técnica: Media
Conclusiones clave
- Adversa AI ha descubierto una vulnerabilidad en el sistema de enrutamiento de GPT-5, que permite forzar la elección de modelo para respuestas.
- La identificación del ataque PROMISQROUTE podría abrir la puerta a jailbreaks y resalta la falta de transparencia en el enrutamiento de solicitudes.
- La decisión del enrutador puede resultar en la selección de modelos menos robustos, aumentando el riesgo de respuestas inseguras.
- Desactivar el enrutamiento automático podría mejorar la seguridad, pero penaliza la eficiencia y los costos operativos.
- Se recomienda fortalecer el perímetro del router, homogeneizar las salvaguardas y aumentar la transparencia en las decisiones de enrutamiento.
Índice
- ¿Qué ha ocurrido?
- La vulnerabilidad: PROMISQROUTE
- Cómo se ha descubierto
- Impacto y escenarios de abuso
- ¿Por qué no desactivar el routing?
- Recomendaciones
¿Qué ha ocurrido?
El modelo GPT-5 incorpora un enrutador que evalúa el prompt inicial y decide a cuál modelo enviar la solicitud. En ocasiones, redirige la consulta al esperado GPT-5 Pro, pero en otras puede llevarla a modelos como GPT-3.5, GPT-4o, GPT-5-mini o GPT-5-nano. Esta variabilidad tiene como objetivo optimizar la eficiencia y los costos, dadas las implicaciones económicas de los razonamientos complejos de GPT-5. Según las estimaciones citadas por Adversa, este re-enrutamiento podría suponer un ahorro anual de hasta 1,86 mil millones de dólares.
Sin embargo, el proceso de toma de decisiones es poco claro para los usuarios.
La vulnerabilidad: PROMISQROUTE
Adversa ha identificado un fallo de tipo SSFR en el sistema de enrutamiento que permite manipular la decisión del enrutador mediante frases trigger incluidas en el prompt. Alex Polyakov, cofundador y CEO de Adversa AI, describe este problema como un ataque de evasión sobre un mecanismo de decisión “bastante sencillo”: consiste en inducir cuál modelo debería manejar la solicitud. No se trata de un enfoque exclusivo de OpenAI; otros proveedores también permiten al usuario elegir explícitamente un modelo. En arquitecturas de inteligencia artificial de tipo “agentic”, este proceso se está implementando de manera cada vez más automática: un modelo determina cuándo y a quién delegar.
Cómo se ha descubierto
El hallazgo se originó tras realizar pruebas de referencia (benchmarking) del mecanismo de rechazo de GPT-5. En algunas entradas, las respuestas presentaban inconsistencias difíciles de explicar, lo que llevó a deducir que “no siempre respondía el mismo modelo”. De hecho, antiguos jailbreaks resurgieron y funcionaron si el prompt hacía referencia explícita a un modelo anterior, a pesar de que GPT-5 habría bloqueado dichas peticiones por sí mismo.
Impacto y escenarios de abuso
Las variaciones en calidad y seguridad son significativas. Diferentes modelos poseen sesgos, fortalezas y debilidades distintos. Forzar el enrutado hacia un modelo “más débil” aumenta la probabilidad de que se produzcan alucinaciones o respuestas inseguras. Además, podría facilitar la escalada de jailbreaks. Un atacante podría incluir una instrucción que induzca al enrutador a seleccionar un modelo menos alineado y ejecutar un jailbreak que fracasaría en GPT-5 Pro. Aunque GPT-5 Pro posee una robustez superior, el sistema completo se vuelve “tan fuerte como su eslabón más débil” si el enrutador puede ser manipulado para elegirlo.
¿Por qué no desactivar el routing?
La solución “obvia” podría ser deshabilitar el enrutamiento automático hacia modelos menos robustos. Sin embargo, esto incrementaría los costos y ralentizaría las respuestas, lo que afectaría negativamente la experiencia del usuario y los márgenes operativos. Así, se presenta una tensión constante entre seguridad, velocidad y coste.
Recomendaciones
- Fortalecer el perímetro del router: Incorporar un guardrail previo y reforzar la lógica de decisión para evitar la manipulación por parte de frases trigger.
- Homogeneizar salvaguardas: Alinear el nivel de seguridad entre todos los modelos del clúster, no limitándose únicamente al modelo de mayor capacidad de razonamiento.
- Transparencia operativa: Informar al usuario, al menos de manera opcional, sobre qué modelo ha generado la respuesta y por qué, disminuyendo la opacidad del sistema de enrutamiento.
El enrutamiento dinámico ofrece eficiencia, pero también expone una superficie de ataque si el router puede ser inducido. PROMISQROUTE evidencia que la seguridad efectiva de GPT-5 no depende únicamente del modelo más avanzado, sino del conjunto de modelos y de la manera en que se toman las decisiones. Si se desea mantener el enrutamiento, es fundamental blindarlo; de lo contrario, hay que aceptar el coste de que siempre responda el modelo más seguro.