© 2025 Diego San Esteban. Todos los derechos reservados. Prohibida la reproducción total o parcial de este contenido sin autorización expresa del autor. Este artículo puede compartirse únicamente citando la fuente original.
Te doy una intro
«Si no toca el P&L, es teatro digital.” Esa frase resume en una línea el problema más grande que enfrentan hoy las empresas con la inteligencia artificial generativa.
En 2025 la foto es clara: las compañías invierten más de 30.000 millones de dólares al año en GenAI, pero el 95% no logra retorno y apenas el 5% de las herramientas personalizadas llega a producción con impacto medible. Es lo que podríamos llamar la Paradoja GenAI: adopción alta, transformación baja.
El fenómeno no es nuevo. En los 90, la ola de ERP prometió “empresas sin papeles” y terminó, en muchos casos, en proyectos faraónicos con ROI diluido. En los 2010, la RPA vendió la ilusión de automatizar procesos con bots simples, pero quedó atrapada en automatizaciones frágiles y silos. Con GenAI pasa lo mismo: el error está en creer que sumar un copiloto más es sinónimo de transformación.
Diagnóstico: adopción sin impacto
Las cifras son contundentes:
- Más del 80% de las grandes empresas probó copilots horizontales tipo chatbot.
- Un 40% los desplegó en algún área interna.
- Pero su efecto real se limita a productividad individual —redactar más rápido, resumir documentos, armar borradores—, no a métricas de negocio.
El resultado: demos espectaculares, titulares de prensa, pero curvas de productividad global planas.

La causa está en la brecha de aprendizaje. Los sistemas actuales no retienen memoria operativa, no aprenden del feedback, no se adaptan al flujo real del negocio. El empleado usa ChatGPT para resolver una tarea crítica, pero ese conocimiento se pierde al minuto siguiente. Es la “shadow AI”: soluciones de usuarios finales, sin trazabilidad, sin integración, sin impacto.
Y mientras tanto, para todo lo complejo y regulado, la preferencia sigue siendo clara: 9 de cada 10 eligen humanos por sobre máquinas.
El giro necesario: de casos a procesos, de copilots a agentes
“Productividad no es escribir más rápido: es rediseñar quién hace qué, en qué orden y con qué memoria.”
La evidencia converge: lo que rompe la paradoja no es sumar más casos de uso, sino cambiar la unidad de transformación. En lugar de “use cases” dispersos, lo que genera ROI son procesos completos rediseñados para ser ejecutados por fábricas de agentes.
A diferencia de los copilots, que esperan instrucciones, los agentes poseen cuatro capacidades críticas:
- Autonomía: toman pasos sin esperar órdenes constantes.
- Memoria: retienen contexto y aprendizaje entre ejecuciones.
- Planificación: diseñan y ejecutan secuencias de acciones.
- Conectividad: interactúan con sistemas, APIs y datos externos.
Esto no es un chatbot más sofisticado: es una organización digital paralela que puede ejecutar un flujo de negocio de principio a fin.
Pero para hacerlo posible, hace falta más que modelos: se requieren arquitecturas de malla de agentes, gobernanza dedicada, observabilidad completa, y un mandato explícito del CEO. Sin ese sponsorship, el resultado es siempre el mismo: pilotos que nunca escalan.
Blueprint operativo: la fábrica de agentes en banca
El caso de la banca es ilustrativo. Procesos como el onboarding corporativo o el KYC/AML siempre fueron intensivos en capital humano. Analistas revisando registros, validando beneficiarios finales, cotejando listas de sanciones, preparando memos de riesgo.
Una fábrica de agentes reinventa ese modelo:
- Se organiza en squads de 4–5 agentes que reproducen roles humanos (líder, investigador, validador, sintetizador).
- Cada squad incorpora un QA agent que revisa consistencia y calidad.
- Los humanos sólo intervienen en excepciones complejas (≤20% de los casos).

El flujo completo puede ser orquestado digitalmente:
- Extracción de documentos y datos.
- Validación en registros oficiales.
- Identificación de beneficiarios finales (UBO).
- Verificación contra listas de sanciones y PEPs.
- Análisis transaccional y screening de noticias adversas.
- Consolidación en un memo final con trazabilidad total.
Incluso cuando un agente falla, los patrones de autocuración (self-heal & rerun) permiten que otro agente lo retome y corrija sin escalar a un humano. El resultado es un sistema más robusto que el modelo manual, con control de errores y bitácora completa.
Métricas: del marginal al multiplicador
En este punto es donde la conversación deja de ser narrativa y se vuelve tangible. La pregunta que hacen todos los directorios no es “qué podemos hacer con IA”, sino “cuánto mueve la aguja en nuestro P&L”.
Los datos empiezan a mostrar que el salto es real cuando dejamos de hablar de copilots aislados y pasamos a fábricas de agentes:
- Riesgo crediticio: donde antes un analista tardaba horas en preparar un memo, hoy los agentes entregan resúmenes más completos en minutos. El resultado es 20–60% más productividad y reducciones del 30% en turnaround time. Esto significa menos clientes esperando, menos riesgo de pérdida de oportunidades y un portfolio más sano.
- Atención al cliente: el cambio no está en responder más rápido correos o chats, sino en rediseñar el flujo de extremo a extremo. Cuando eso ocurre, las cifras son contundentes: 60–90% menos tiempo de resolución, 80% de incidentes comunes resueltos automáticamente y la posibilidad de que el cliente no note nunca que intervino un humano. La diferencia es pasar de “optimizar” a “eliminar fricción”.
- KYC/AML: el terreno más crítico y costoso para la banca. Aquí la diferencia es abismal. Con squads de agentes, un humano no revisa cada caso, sino que supervisa entre 15 y 20 agentes que ya hicieron la extracción, validación y análisis. Es un salto de 20× en capacidad operativa. Y no es solo volumen: también implica más consistencia en criterios de riesgo y más trazabilidad para auditoría y reguladores.
Lo que hace la diferencia no es solo la tecnología, sino cómo se miden los resultados. El ROI de una fábrica de agentes no se presenta en slides con frases inspiradoras, sino en indicadores duros:
- STP (Straight-Through Processing): qué porcentaje de casos fluye sin intervención humana.
- TAT (Turnaround Time): cuánto tarda en resolverse un caso de punta a punta.
- QA (Quality Assurance): tasa de errores y consistencia frente a controles.
- Escalaciones: qué porcentaje necesita subir a un humano.
Cada una de estas métricas cambia no en decimales, sino en órdenes de magnitud. Ahí aparece la verdadera transformación: de mejoras marginales a multiplicadores de valor.
Aquí el scorecard sintetiza el cambio, mostrando de manera visual cómo una organización pasa de procesos manuales, lentos y con alta fricción, a un sistema orquestado por agentes que multiplica capacidad, reduce riesgos y libera talento humano para lo estratégico.

La lectura ejecutiva del scorecard (recomendada)
- Más procesos directos (STP): pasar de 35% a 85% significa que 8–9 de cada 10 clientes atraviesan el flujo sin fricción ni intervención humana. Esto libera capital humano para los casos realmente complejos.
- Menos tiempo muerto (TAT): reducir de 6 a 2 días implica acelerar 3× la experiencia. No es solo eficiencia: es competitividad frente a fintechs que ya ofrecen onboarding en horas.
- Mayor calidad (QA): bajar de 6,5% a 2% de errores es más que precisión. Es blindaje frente a auditorías, multas regulatorias y pérdidas reputacionales.
- Menos escalaciones: pasar de 65% a 17,5% significa que los humanos dejan de ser cuello de botella. El talento no desaparece: se concentra donde más valor aporta.
Scorecard de métricas clave (modelo tradicional vs. fábrica de agentes):
- STP (procesos directos): de 30–40% a 80–90%.
- TAT (turnaround time): de 5–7 días a 1–2 días.
- QA (errores): de 5–8% a ≤2%.
- Escalaciones humanas: de 60–70% a 15–20%.
Interpretación: pasar de 40% a 90% de STP significa que 9 de cada 10 clientes entran sin fricción, liberando capital humano para los casos realmente excepcionales. Reducir de 7 días a 2 el TAT cambia la experiencia del cliente, el riesgo operativo y la competitividad frente a fintechs. Y bajar las escalaciones humanas no es “despedir gente”: es liberar talento de tareas repetitivas para enfocarlo en lo crítico.
Las cuatro bases del modelo agentic
Una fábrica de agentes no se sostiene en modelos grandes, sino en cuatro habilitadores:
- Personas: emergen roles como agent orchestrator, responsables de diseñar, coordinar y monitorear a los agentes.
- Gobernanza: estándares de diseño, métricas de impacto, control de proliferación y ciclos de vida claros.
- Arquitectura tecnológica: malla de agentes, observabilidad, plataformas vendor-agnostic y resiliencia geopolítica.
- Datos: calidad, linaje, soberanía y compliance. En sectores regulados, la trazabilidad no es un lujo: es requisito legal.

Interpretación ejecutiva
Las fábricas de agentes no se sostienen en modelos más grandes, sino en cimientos organizativos claros:
- Personas: roles nuevos como agent orchestrators aseguran coordinación y accountability.
- Gobernanza: define ciclos de vida y previene el agent sprawl, evitando caos y riesgos.
- Arquitectura tecnológica: provee la malla, la observabilidad y la resiliencia necesarias para operar en producción.
- Datos: garantizan soberanía, calidad y linaje, sin los cuales todo lo demás se derrumba.
En conjunto, estas cuatro bases convierten lo experimental en industria digitalizable y auditable, capaz de mover el P&L y resistir la lupa regulatoria.
En otras palabras: lo que antes fue la creación de un Data Governance Office, ahora se traduce en la necesidad de un Agent Governance Office.
Implementación: un plan de 90 días
La transición no es abstracta. Puede arrancar en 90 días si se estructura correctamente:

- Día 0–15: seleccionar un proceso crítico (ej. onboarding corporativo). Definir métricas de negocio y guardrails de riesgo.
- Día 16–45: mapear el flujo completo, diseñar squads de agentes, instrumentar telemetría y trazabilidad desde el inicio.
- Día 46–75: construir la malla de agentes, integrar datos internos/externos, establecer controles de soberanía.
- Día 76–90: definir ciclos de vida, QA por muestreo, comités de ROI y gobernanza de cambios.
La clave es medir siempre con lenguaje de negocio: STP, TAT, error rate, escalaciones. Sin eso, todo vuelve a ser teatro digital.
Por qué los pilotos se traban
Los directorios repiten la misma frustración: “Hicimos pilotos de IA en todos lados… pero no vemos el impacto en el negocio.”
La realidad es que el problema no es la tecnología, sino cómo se la implementa. Tres errores estructurales explican por qué tantas iniciativas quedan atrapadas en la fase de “proof of concept eterno”.
1. Insertar agentes en procesos viejos
El error más común es usar la IA para acelerar procesos obsoletos en lugar de rediseñarlos.
- Ejemplo: sumar un copiloto para ayudar a un analista a llenar formularios manuales. Sí, produce más rápido, pero el cliente sigue esperando días para el alta.
- Resultado: mejoras marginales en velocidad, pero el modelo operativo no cambia.
- Lección: no se trata de hacer lo mismo más rápido, sino de hacer algo distinto. La productividad real surge al repensar el flujo end-to-end para que los agentes operen de manera nativa.
2. Medir adopción y no impacto financiero
Muchas compañías miden “éxito” en base a métricas como: número de usuarios que probaron un copiloto, horas de uso o cantidad de prompts ejecutados.
- Problema: son métricas de adopción, no de negocio.
- Si el resultado no se traduce en mayor STP, menor TAT, menos errores o reducción de costos operativos, entonces no toca el P&L.
- Esto lleva a celebraciones prematuras (“tenemos 5.000 usuarios internos usando copilots”) que en realidad son teatro digital.
- El verdadero salto ocurre cuando se responde a otra pregunta: ¿qué línea del balance mejora con este despliegue?
3. Permitir proliferación sin control: el
agent sprawl
Cuando cada área experimenta por su cuenta, aparecen decenas de agentes sin estándares, sin observabilidad y sin integración.
- Consecuencia: duplicación de esfuerzos, falta de trazabilidad, riesgos de compliance y “sistemas paralelos” invisibles para TI.
- En banca o seguros, esto es crítico: un agente no gobernado puede exponer datos sensibles o generar decisiones no auditables.
- La historia se repite: así como surgió la “shadow IT” con la nube, ahora emerge la “shadow AI”.
- Sin un Agent Governance Office que establezca políticas, métricas y ciclos de vida, la promesa de la IA se convierte en caos.

La salida: industrializar procesos, no escalar prototipos
El antídoto es simple de decir y difícil de ejecutar: industrializar procesos.
- Elegir un proceso crítico que mueva el negocio (ej. onboarding corporativo).
- Rediseñarlo de extremo a extremo pensando en agentes, no en humanos asistidos.
- Definir métricas duras de negocio (STP, TAT, QA, escalaciones).
- Instrumentar trazabilidad desde el primer día.
- Escalar con gobierno centralizado y no con “laboratorios dispersos”.
“No escales prototipos: industrializá procesos.”
La diferencia es brutal: los prototipos generan titulares, las fábricas de agentes generan ROI.
Mi reflexión final: coraje para rediseñar
El futuro no está en multiplicar copilots, sino en construir fábricas de agentes que operen con memoria, control y métricas de negocio.
No se trata de reemplazar personas: se trata de redistribuir el trabajo, de liberar talento humano de tareas rutinarias para enfocarlo en lo que importa.
“Los agentes no reemplazan gente: reparten el trabajo distinto. El resto es narrativa.”
La paradoja GenAI no se resuelve con más demos ni con más pilotos. Se resuelve con coraje: el coraje de rediseñar procesos críticos, de someterlos a métricas duras y de construir organizaciones digitales paralelas que sí toquen el P&L.
Ese es el salto real. Y quienes lo den, serán los que definan la próxima década.
Diego San Esteban
Seguime en instagram en dsaneste_ok