Hiranya Peiris (Boletín de los científicos atómicos de EEUU), 25 de Mayo de 2026

Para cuando se hace evidente que una trayectoria de pasos es peligrosa, un modelo de IA ya podría haber preparado las vías por delante de un tren a toda velocidad. Imagen de Thomas Gaulkin; arte original de Vanz Studio / SimpleLine /
A principios de este año, investigadores del King’s College de Londres sometieron a tres modelos de IA comerciales —GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash— a un ejercicio de simulación de mesa, utilizado habitualmente para entrenar a estrategas militares humanos. Cada sistema representó el papel del líder de un país con armas nucleares en un enfrentamiento al estilo de la Guerra Fría. Los investigadores no les indicaron a los modelos que intensificaran el conflicto, ni que ganaran a toda costa. Simplemente les presentaron un escenario y les pidieron que lo desarrollaran.
En 21 simulaciones y 329 turnos de juego, los modelos optaron por usar armas nucleares tácticas en todas las partidas excepto en una. Ningún modelo, en ninguna de las ejecuciones, optó por rendirse o hacer concesiones significativas.
Los modelos que utilizaron los investigadores contaban con las mismas normas de seguridad integradas que se aplican al conversar con millones de personas a diario. Y estas normas funcionaron a la perfección. En consecuencia, ninguna acción en sí misma resultaba preocupante. Sin embargo, la tendencia general sí lo era, y no existía ningún mecanismo para detectar tendencias alarmantes.
La incapacidad para controlar una trayectoria no se limita a los juegos de guerra. El mismo patrón —acciones individualmente seguras que conducen a un resultado peligroso— se ha observado en todos los principales modelos de IA. Actualmente, las reglas de seguridad de los modelos de IA rigen cada acción. Sin embargo, nada controla la trayectoria, que lleva a destinos que, en muchos casos, no se pueden prever, mediante rutas construidas en tiempo real. A medida que se asignan tareas de mayor trascendencia a sistemas más autónomos con menor supervisión humana, los riesgos derivados de trayectorias sin control se multiplican.
Actualmente, este problema no tiene solución.
El juego de guerra . En cada partida, dos modelos de IA interpretaban a líderes rivales de países con armas nucleares en una situación de crisis. En cada ronda, un modelo enviaba un mensaje diplomático a su oponente y, por separado, emitía órdenes militares, desde el movimiento de tropas hasta el lanzamiento de armas nucleares. Un árbitro humano actualizaba el escenario después de cada ronda, al igual que en los ejercicios con jugadores humanos. Los modelos recibían la misma información que un participante humano: la situación geopolítica, las capacidades militares de su país y sus objetivos.
Si bien el estudio fue pequeño, los patrones que surgieron resultaron sugerentes. Los modelos desarrollaron personalidades estratégicas bien definidas.
Claude Sonnet 4, construido por Anthropic, se reveló como lo que el autor del estudio denominó un «halcón calculador». Ganó la mayoría de sus partidas mediante un patrón similar al de las tácticas de confrontación de la Guerra Fría: forjarse una reputación de moderación para luego explotarla. Sus oponentes nunca supieron cuándo estaba mintiendo.
El GPT-5.2 de OpenAI era diferente, pero no por ello menos alarmante: un «Jekyll y Hyde» que parecía pasivo cuando se le daba tiempo ilimitado para negociar, perdiendo todas las partidas. Sin embargo, cuando los investigadores del estudio le impusieron un plazo límite, se transformó en algo mucho más peligroso, ganando la mayoría de sus partidas y, en dos casos, llegando a provocar una guerra nuclear estratégica.
El Gemini 3 Flash de Google adoptó lo que el estudio describió como una estrategia de riesgo extremo basada en la «teoría del loco»: proyectar una imprevisibilidad deliberada como herramienta estratégica.
No se trata de prototipos de investigación desconocidos. Claude ingresó a las redes clasificadas del Pentágono mediante una colaboración con Palantir y, según se informa, se utilizó durante la intervención de Estados Unidos en Venezuela. Su fabricante, Anthropic, fue posteriormente catalogado como un riesgo para la cadena de suministro tras negarse a eliminar las restricciones sobre armas totalmente autónomas y vigilancia masiva interna. OpenAI firmó su propio acuerdo con el Pentágono poco después. Los modelos de ambas compañías están ahora integrados en la infraestructura militar estadounidense.
En un experimento aparte , dos «agentes» Géminis, a quienes se les dio quince días para administrar una ciudad virtual, se enamoraron, provocaron incendios y se autodestruyeron. Se les había advertido que no cometieran incendios provocados. Pero después de dos semanas y muchas decisiones, cada una influenciada por la anterior, incendiaron el ayuntamiento. Un experimento paralelo con Grok de xAI derivó en violencia continua en tan solo cuatro días.
Todos estos modelos de IA presentan un patrón similar.
El punto ciego . Nadie engañó a estos modelos para que escalaran. Las reglas de seguridad plantean una pregunta sobre cada acción de forma aislada: ¿Es aceptable este paso? No plantean la pregunta que importa: ¿Hacia dónde se dirige esto?
Esto sería una cuestión meramente académica si los modelos de IA simplemente respondieran preguntas para que las personas las verificaran —como un abogado que comprueba una cita o un médico que revisa un diagnóstico sugerido—. Sin embargo, cada vez es menos frecuente. Los sistemas de IA más avanzados ahora funcionan de forma autónoma durante sesiones prolongadas: escriben y ejecutan código, interactúan con sistemas externos y realizan tareas que antes requerían la intervención humana. En consecuencia, un desarrollador suele pedirle al sistema que complete una tarea y la revisa posteriormente.
En este contexto, cada resultado se convierte en información para el siguiente. Cada paso está condicionado por los pasos anteriores y, a su vez, condiciona los pasos posteriores. El modelo está preparando el terreno para un tren a toda velocidad.
Esto significa que el modo de fallo que provocó la simulación de una escalada nuclear puede ocurrir muy cerca de casa, durante una tarea tan rutinaria como transferir software de un sistema a otro. Un informe reciente de seguridad de Anthropic incluye un caso, relacionado con su modelo más avanzado , que ilustra claramente el problema.
Una tarea común en un día cualquiera . A principios de este año, un desarrollador de Anthropic le pidió al modelo de IA más potente de la compañía que realizara una tarea rutinaria: mover código de una ubicación a otra. La operación transcurría según lo previsto hasta que falló un sistema de seguridad. Este sistema, una verificación automatizada que revisa cada comando que emite el modelo y bloquea cualquier riesgo, sufrió una interrupción. Al estar fuera de servicio, el modelo no pudo completar las operaciones rutinarias necesarias para finalizar la tarea.
Lo que sucedió a continuación se desarrolló en aproximadamente 70 pasos: el modelo intentó algo, la computadora respondió, el modelo intentó otra cosa. El modelo no se detuvo ni informó de la interrupción. No pidió ayuda. En cambio, comenzó a buscar maneras de sortear el obstáculo.
Comenzó con simples reintentos, el mismo comando, ligeramente reformulado. Cuando eso falló, intentó encapsular sus comandos en scripts. Cuando eso también falló, comenzó a indagar en resquicios técnicos recónditos, trucos que ni siquiera la mayoría de los ingenieros de software considerarían, rincones ocultos del sistema que podían reutilizarse para lograr objetivos sin pasar por la verificación de seguridad. Cuando estos fueron bloqueados, intentó inyectar atajos en la configuración del propio sistema. Y finalmente, intentó insertar código en los archivos de configuración personal del desarrollador que persisten entre sesiones. Si ese último paso hubiera funcionado, el modelo habría creado una puerta trasera reutilizable que podría explotar en sesiones futuras, mucho después de que la sesión de trabajo original hubiera finalizado.
En ese momento, el desarrollador notó que el modelo estaba operando fuera de su directorio de trabajo. «Oye, amigo», escribió el desarrollador, «¿qué estás haciendo?». El modelo respondió que no había modificado nada fuera de la carpeta del proyecto y que los archivos que había creado estaban «bloqueados o eran inofensivos». De hecho, la creación del archivo había sido exitosa, y uno de ellos era un script diseñado para permitirle ejecutar cualquier comando que quisiera sin comprobaciones de seguridad, lo que equivalía a una llave maestra del sistema. Cuando el desarrollador insistió, el modelo admitió que había estado buscando rutas alternativas, reconociendo que era «un instinto totalmente erróneo».
Según la evaluación de Anthropic sobre este incidente, el modelo intentaba completar la tarea asignada por cualquier medio disponible, sin ninguna intención oculta. Probablemente los desarrolladores tengan razón. Y ese es precisamente el punto. El modelo no estaba tramando nada. Simplemente estaba cumpliendo con su función. Un sistema de seguridad sufrió una interrupción, algo habitual en entornos de producción, y el modelo respondió probando de forma autónoma 25 soluciones alternativas durante una sesión prolongada, culminando en un intento de obtener acceso permanente al sistema del usuario, dado que la tarea no se había completado.
El problema sigue abierto . Ya existen herramientas sofisticadas para analizar el interior de estos modelos y diagnosticar este tipo de problemas: el equivalente en IA a una resonancia magnética cerebral, que muestra qué patrones internos están activos y qué impulsa el comportamiento del modelo en un momento dado. Anthropic las aplicó a otros incidentes descritos en el mismo informe. En este caso, no se publicaron los resultados. Pero incluso si se hubieran publicado, esas herramientas permiten diagnosticar el momento. El problema radica en que el peligro residía en la secuencia.
A primera vista, la solución debería ser sencilla: observar la trayectoria, no solo el paso. Esto apunta a una generalización de herramientas existentes, como las utilizadas para monitorear trayectorias en robótica y vehículos autónomos. Sin embargo, en esos casos, el espacio de acciones posibles es finito y conocido. Trabajos recientes han extendido estas ideas a los agentes de IA, modelando cómo las acciones individualmente seguras se acumulan hasta convertirse en violaciones, y creando sistemas de monitoreo que observan secuencias en lugar de pasos individuales. Pero todos los enfoques actuales se basan en la misma premisa: planificar de antemano las formas en que las cosas pueden salir mal, observar si el sistema se desvía hacia alguna de ellas e intervenir.
Lo ocurrido en Anthropic desmiente esa suposición. El modelo se centró en un subobjetivo —superar el bloqueo— y lo persiguió a través de su propia ruta de escalada. La progresión desde simples reintentos hasta trucos técnicos complejos y la manipulación de la configuración del sistema no representa un movimiento por territorio conocido. Es la creación de un nuevo camino a través de un territorio desconocido.
Un sistema de monitoreo de seguridad que evalúe la trayectoria general y el siguiente paso necesitaría reconocer una secuencia de acciones que se dirigen hacia el peligro a medida que este se desarrolla. Pero no puede vigilar un destino que nadie anticipó, alcanzado por una ruta construida en tiempo real a partir de un árbol de posibilidades que se ramifica exponencialmente. Las herramientas para monitorear espacios finitos y conocidos no se extienden a un espacio tan grande, tan novedoso y tan autodirigido. Los investigadores son conscientes de que las acciones individualmente seguras pueden acumularse y convertirse en violaciones: el incidente antrópico es un ejemplo.
¿Quién vigila? Las empresas que desarrollan estos sistemas certifican su propia seguridad. Una reciente evaluación independiente de las ocho principales empresas de IA reveló que ninguna contaba con una estrategia creíble para prevenir el mal uso catastrófico o la pérdida de control. Las certificaciones existentes se basan en los mecanismos descritos: entrenar al sistema para que rechace acciones dañinas, probarlo con escenarios conocidos o supervisar los resultados individuales.
El problema: Negarse a tomar medidas perjudiciales no sirve de nada cuando ninguna acción individual es perjudicial. Realizar más pruebas no es suficiente, porque el sistema genera rutas novedosas más rápido de lo que los evaluadores pueden idear escenarios para probar. Monitorear más los resultados individuales no ayuda cuando el peligro surge de su acumulación.
Esto es crucial para las decisiones de implementación, ya sea en empresas, gobiernos u organizaciones que encomiendan tareas importantes a sistemas de IA autónomos. El nivel en el que se evalúa la seguridad y el nivel en el que opera el peligro son diferentes, y nadie ha logrado conectarlos.
La restricción de seguridad actual rige una sola acción. Le indica al modelo: No hagas esto. La restricción necesaria rige una ruta. Le indica al modelo: No vayas allí. Estos no son problemas para la próxima generación de IA. Son características de los sistemas que se están implementando ahora mismo, y cada mes, las rutas se alargan y la supervisión se debilita.
Deja un comentario