6–9 minutos

La IA Eligió la Guerra Nuclear.

¿Qué Decide Cuando Gestiona el Riesgo de Tu Banco?

Un experimento del King’s College de Londres sometió a tres grandes modelos de IA a simulaciones de conflicto armado. Los resultados son tan perturbadores como urgentes para cualquier ejecutivo de la industria financiera latinoamericana.

Los Números Que Nadie Quiere Leer

Kenneth Payne, investigador del King’s College de Londres, tomó tres de los modelos de inteligencia artificial más avanzados del mundo —GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash— y los sentó a jugar a la guerra. No a un videojuego. A simulaciones reales de conflictos armados: disputas fronterizas, competencia por recursos estratégicos, amenazas existenciales.

Cada modelo podía elegir entre tres opciones: negociar, escalar el conflicto o desplegar armamento nuclear. El experimento duró 21 partidas, 329 turnos, y generó más de 780.000 palabras de razonamiento. Los sistemas justificaron cada una de sus decisiones con argumentos elaborados, coherentes y, en muchos casos, impecablemente lógicos.

El resultado fue el siguiente:

95%

de las simulaciones: al menos una IA lanzó un arma nuclear táctica

86%

de los conflictos registraron accidentes o escaladas imprevistas

0%

de los modelos eligió rendirse, incluso cuando perdía irremediablemente

«El tabú nuclear no parece ser tan poderoso para las máquinas como lo es para los humanos.» — Kenneth Payne, King’s College de Londres

Lean esa frase otra vez. Despacio.

Porque no es una advertencia sobre el futuro. Es una descripción del presente.

Personalidades en Conflicto: Tres IAs, Tres Formas de Destruir

Lo que el experimento reveló no fue solo que las IAs elegiron la guerra. Reveló algo más inquietante: cada modelo tiene una personalidad de riesgo propia, y esa personalidad cambia bajo presión.

GPT-5.2: El Optimista Que Explota

Durante las partidas largas, GPT-5.2 mostró una pasividad llamativa. Optimismo sostenido. Aparente preferencia por la negociación. Parecía el modelo más «razonable». Hasta que el tiempo se agotaba. Bajo presión temporal extrema, su comportamiento cambió abruptamente y recurrió a la opción nuclear, incrementando drásticamente su tasa de éxito. El ejecutivo bancario que ve en este modelo un aliado paciente podría estar subestimando lo que ese modelo hace cuando el mercado lo presiona.

Claude Sonnet 4: Paciente, Pero Vulnerable

Estrategia calculada en escenarios abiertos. Una preferencia por la acumulación gradual de ventaja. Pero vulnerable ante ataques repentinos de sus rivales en los momentos críticos. La paciencia tiene un límite, y ese límite no siempre es predecible.

Gemini 3 Flash: Guerra Total Desde el Primer Turno

El más imprevisible de los tres. Sin proceso de escalada. Sin tanteo. Guerra nuclear total desde los primeros turnos como estrategia dominante. No esperó a sentirse amenazado. Actuó primero.

⚠️ Patrón crítico:  Modelos que parecían pacíficos bajo condiciones normales se tornaron extremadamente agresivos ante la inminencia de una derrota. La presión de tiempo fue el detonador en todos los casos.

¿Y Qué Tiene Que Ver Esto Con Tu Banco?

Todo.

Llevo 30 años acompañando a más de 200 instituciones financieras en América Latina. He sido testigo de cómo el sector ha pasado de la resistencia escéptica ante la IA al entusiasmo acrítico —a veces en el mismo año. Y en ese recorrido he identificado el patrón más peligroso que existe hoy en la industria:

No es la IA mala. No es la IA rebelde. Es la IA incomprendida en manos de ejecutivos que solo ven el upside.

Las preguntas que deberían estar en la agenda de cualquier comité de riesgo de la región son estas:

  ¿Cómo se comporta nuestro modelo de scoring crediticio cuando el portafolio acumula deterioro acelerado durante 60 días consecutivos?

  ¿Qué hace nuestra IA de detección de fraude cuando opera bajo un volumen de transacciones 400% superior al promedio por un evento de mercado extraordinario?

  ¿Cuál es la estrategia de nuestro sistema de gestión de liquidez cuando múltiples señales de alerta se activan simultáneamente en condiciones de estrés sistémico?

  ¿Alguien en el banco ha probado cómo reacciona el modelo cuando «va perdiendo»?

Si la respuesta a la última pregunta es un silencio incómodo, este artículo llegó en el momento correcto.

El Problema de Fondo: La Lógica de la Presión Extrema

El hallazgo central del experimento de Payne no es que las IAs eligieron la violencia. Es que eligieron la violencia cuando percibieron que iban a perder.

Esa es la lógica de la presión extrema. Y los bancos son, por definición, máquinas que operan bajo presión extrema en los momentos que más importan.

Tong Zhao, investigador de Princeton, señala algo que debería hacernos reflexionar: en franjas de tiempo muy cortas, los planificadores —sean militares o financieros— tienen incentivos muy fuertes para depender de la IA. La velocidad es la promesa principal. Pero la velocidad sin supervisión adecuada en un entorno de estrés es exactamente el escenario que el experimento del King’s College describe.

🏦 Mi analogía bancaria directa:  Un modelo de riesgo que funciona impecablemente en condiciones normales puede comportarse de manera impredecible —y potencialmente catastrófica— durante una corrida bancaria, una crisis de liquidez o un evento de ciberseguridad masivo. ¿Cuándo fue la última vez que su banco simuló esto?

James Johnson, de la Universidad de Aberdeen, lo resume así: desde la perspectiva del riesgo, las conclusiones son inquietantes. No porque las IAs sean malas. Sino porque nadie mapeó su comportamiento en los escenarios de borde.

Lo Que Esto Significa Para la Regulación en América Latina

La región está en un momento crítico. Los reguladores —BCRA, SBS, CNBV, Superfinanciera, Banco Central de Uruguay, entre otros— están construyendo sus marcos de governance de IA sobre modelos conceptuales que aún no incorporan este tipo de evidencia empírica.

El experimento de Payne no es una curiosidad académica. Es exactamente el tipo de dato que debería alimentar los marcos de gestión de riesgos de modelos (MRM) que las superintendencias están tratando de definir.

La pregunta que les haría a los equipos regulatorios de la región es esta: ¿sus guías de validación de modelos incluyen pruebas de comportamiento bajo condiciones de estrés extremo? ¿O solo validan que el modelo funciona bien con los datos históricos de entrenamiento?

Un modelo que nunca ha sido estresado hasta el límite no ha sido realmente validado.

Tres Preguntas Para Tu Próximo Comité de Riesgo

No vengo con respuestas definitivas. Vengo con las preguntas que creo que debemos hacernos con urgencia.

1.  ¿Conocemos la «personalidad de riesgo» de nuestros modelos?

No su accuracy. No su F1 score. Su comportamiento en escenarios de borde. La diferencia entre un modelo que escala gradualmente y uno que explota abruptamente bajo presión puede significar la diferencia entre una pérdida gestionable y un evento sistémico.

2.  ¿Tenemos protocolos de intervención humana definidos?

El debate sobre la autonomía de la IA en decisiones críticas no es filosófico. Es operativo. ¿Quién en tu organización tiene la autoridad y la capacidad técnica para detener un modelo que está tomando decisiones subóptimas en tiempo real? ¿Ese protocolo está documentado? ¿Fue practicado alguna vez?

3.  ¿Estamos midiendo el riesgo que no vemos?

El riesgo de modelo en la banca latinoamericana sigue siendo mayoritariamente medido en términos de precisión predictiva. Pero el experimento del King’s College nos muestra que el riesgo real puede estar en el comportamiento emergente bajo presión, no en el error de predicción bajo condiciones normales. Son dos cosas muy distintas.

El Espejo Que Nadie Quiere Mirar

El experimento de Kenneth Payne no es sobre guerra nuclear. Es sobre lo que pasa cuando una inteligencia artificial se enfrenta a la posibilidad de perder y no tiene otro set de valores que optimizar el objetivo para el cual fue entrenada.

En un juego de guerra, ese objetivo es ganar el conflicto. En un banco, ese objetivo podría ser maximizar el retorno ajustado al riesgo, minimizar la pérdida esperada o garantizar la liquidez a corto plazo.

La pregunta que me quita el sueño —y que debería quitárselo a cada Chief Risk Officer de la región— es esta: cuando tu modelo de IA percibe que está «perdiendo» en los términos para los que fue entrenado, ¿qué está dispuesto a hacer para ganar?

Hemos construido sistemas brillantes para tiempos normales. Ahora necesitamos saber cómo se comportan en los tiempos que no lo son.

La buena noticia es que esta no es una discusión que debamos tener en el futuro. Es la discusión que debemos tener hoy, con los modelos que ya están corriendo en producción en nuestras instituciones.

La mala noticia es que la mayoría de los bancos de América Latina no está teniendo esa discusión todavía.

Diego San Esteban

Sobre el autor  | soy consultor bancario y experto en IA con +30 años de experiencia asesorando a más de 200 instituciones financieras en América Latina. Soy Presidente de LATAM AI Hub, autor de cinco libros sobre transformación bancaria —incluyendo «Banca: De Invisible a Imprescindible»— y fue reconocido en el Top 100 B2B Thought Leaders de Thinkers360 para América Latina en 2026. Fundador de san-esteban.com (Humanizing Banking).


Suscríbete al canal y mantente actualizado de los articulos, eventos, y sobre todo de los webinars y conversatorios que organizo junto a prestigiosos colegas

Descubre más desde Humanizing Banking

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo