Cómo evitar el desastre en la implementación de IA en 2025

29–43 minutos

8 de agosto de 2025

La consultoría de IA que necesitas no vende humo: vende accountability

Por Diego San Esteban

“En 2025 vender IA es fácil. Ejecutarla sin incendiar compliance, datos y P&L, no.”

La fiebre por la IA desató una oferta inédita de “consultoras” que venden transformación en tiempo récord. Muchas combinan un pitch impecable con currículums vistosos, pero arrastran dos ausencias que en producción no perdonan: músculo técnico y cicatrices operativas. El síntoma se repite país tras país: demo days perfectos, pilots que no cruzan el umbral, dependencias tecnológicas difíciles de revertir y una deuda oculta que no aparece en la propuesta comercial pero sí en el P&L: deuda de compliance, de datos, operativa y reputacional.

¿Por qué pasa? Porque hay tres desalineaciones estructurales. La primera es de incentivos: el vendedor optimiza por cierre y upsell; el directorio necesita resultados sostenibles bajo control. La segunda es de diagnóstico: se promete IA donde hace falta higiene de datos, automatización básica o rediseño de procesos; sin cimientos, el modelo solo amplifica ruido. La tercera es de gobernanza: se confunde “tenemos un modelo” con “tenemos un sistema bajo gobierno”; sin trazabilidad, roles, controles y evidencias, lo que luce moderno es, en rigor, in-auditable.

También hay una taxonomía incómoda detrás del humo. Están las agencias de slideware, que viven de metáforas y frameworks genéricos; los revendedores de plataforma, que atan tu futuro a un único proveedor con cláusulas blindadas; y los staffers sin delivery, que rotan perfiles “senior” en papeles, pero no sostienen SLOs, runbooks ni post-mortemscuando algo falla. El patrón común: POCs sin usuarios ni KPIs, ausencia de métricas de error (factualidad, sesgo, toxicidad), cero red-teaming y contratos sin cláusulas de no-entrenamiento con tus datos ni plan de salida.

En paralelo, la regulación madura. El calendario del AI Act y las guías de riesgo (NIST, ISO/IEC 42001) dejan claro que la vara sube: transparencia, gestión del ciclo de vida, controles técnicos, documentación y capacidad de auditoría por caso de uso. Esto desplaza la conversación de “¿qué demo podemos mostrar?” a “¿qué decisiones automatizamos, con qué riesgos, bajo qué controles, y con qué evidencias lo defendemos ante auditoría y prensa?”. Lo que antes era una nice-to-have ahora es un requisito de continuidad.

Para un C-level, el costo real no es el fee inicial: es el lock-in que encarece cada iteración, el TCO explosivo en producción por malas arquitecturas (RAG sin caching, feature stores inexistentes, observability ausente), la superficie de ataque abierta por conectores sin controles (inyección indirecta, fuga de secretos), y la pérdida de tiempo de equipos talentosos apagando incendios que la propuesta nunca contempló. La pregunta estratégica, entonces, no es “¿con quién compramos IA?”, sino “¿qué capacidad construimos, con qué gobernanza y bajo qué métricas de negocio, riesgo y costo?”.

En síntesis: el mercado se llenó de promesas rápidas y accountability escaso. La IA que no llega a producción es marketing interno; la que llega sin controles es un incidente esperando un titular. El directorio que entienda esta diferencia—y la gestione con arquitectura portable, contratos sanos y gobierno auditable—se quedará con la ventaja compuesta cuando pase la espuma.

“La IA sin gobernanza es una deuda; la IA con gobernanza es un activo compuesto.”

1) Lo que de verdad te puede romper el negocio

Cuando una iniciativa de IA fracasa en grande rara vez es por “un bug”. Suele ser por cinco fallas sistémicas que se retroalimentan: seguridad laxa en agentes conectados, cumplimiento que corre atrás de los casos de uso, gobernanza que no existe más allá del PowerPoint, economía opaca con lock-in, y datos sin higiene. Si dejás que hablen entre sí, esas cinco fallas generan un efecto dominó: un pequeño desvío técnico se vuelve incidente de seguridad; el incidente acelera escrutinio regulatorio; el escrutinio revela falta de gobierno; y la remediación, ya con lock-in, cuesta el triple. El antídoto no es “más IA”, sino diseño con responsabilidad explícita: controles antes de los modelos, evidencia antes de la retórica, métricas antes de las promesas.

a) Seguridad en LLM (inyección indirecta, jailbreak, supply chain)

Qué es. Con agentes conectados a correo, drive, calendar o APIs, la amenaza deja de estar “adentro del prompt” y entra por insumos externos (un PDF, una invitación, una nota en el CRM). Años atrás , en mis años de facultad (que memoria), un colega que trabajaba sobre un AS/400, súper limitado por su rol, descubrió que si abría la agenda y, en el campo “Notas” de un recordatorio recurrente, podía escribir consultas SQL. Terminó siendo el que mejor reportería generaba en la organización, explotando Crystal Reports + SQL. Interesante, ¿no? ¿Qué demuestra? Que los canales laterales existeny que una interfaz que “no fue pensada para eso” termina siendo superficie de ejecución. Con LLMs y agentes conectados, ese mismo patrón escala: una inyección indirecta puede persuadir al modelo de ejecutar acciones o exfiltrar datos; los jailbreaks buscan evadir guardrails; y la supply chain trae riesgos vía plugins, SDKs o modelos de terceros. Integrar ≠ asegurar.

Cómo se manifiesta.

Acciones no autorizadas (enviar mails, crear accesos) “ordenadas” por contenido malicioso.
Respuestas con confianza alta y contenido falso que llegan a operar sistemas internos.
“Fugas silenciosas” de secretos vía tools integradas.

Señales tempranas. Picos de tool calls atípicos, escalados a humano sin patrón, prompts “raros” en logs, hallucination rate que sube cuando hay adjuntos.

Medidas inmediatas.

Principio de menor privilegio por tool (lo mínimo indispensable).
Validación de entrada y allow-lists de fuentes confiables.
Red-teaming continuo con inyección indirecta y canary prompts.
Kill-switch y rollback a respuestas read-only ante desviaciones.
Telemetría a SIEM y MTTP <72h ante CVE de terceros.

Si estas en el board o en la mesa chica recuerda: “Integrar no es asegurar.”

b) Cumplimiento regulatorio en endurecimiento

Qué es.

La aplicación por tramos de marcos como el AI Act (y sus espejos locales) exige clasificar el caso de uso, documentar el ciclo de vida, evidenciar controles y ser auditables. No es “legal al final”: es riesgo operacional desde el día 1.

Cómo se manifiesta.

Revisión del regulador pidiendo expedientes por caso (datos, versión de modelo/prompts, human-in-the-loop, métricas, red-teaming).
Contratos sin cláusulas de no-entrenamiento, retención/depuración, portabilidad y auditorías.
Falta de explicabilidad en decisiones que afectan clientes (no hay cómo reconstruir el “por qué” de la decisión).

¿Y si tu país no tiene regulación todavía? (spoiler: igual estás expuesto)

Extraterritorialidad y cadenas de valor. Si proveés, integrás o tenés usuarios/outputs que toquen jurisdicciones con marcos vigentes (UE, socios que exportan a UE, multilatinas), te alcanza por vía contractual o comercial.
Regulación sectorial existente. Bancos, seguros, salud y fintech ya operan bajo normas prudenciales, de datos y de consumidor: el vacío de “ley de IA” no te exime de gobernar modelos que afectan decisiones sensibles.
Deber fiduciario del Board. Sin ley específica, sigue vigente la responsabilidad por gestión de riesgo, continuidad y reputación. Un incidente “de IA” es incidente operativo.
Mercado como regulador de facto. Procurement de corporativos exige evidencias: expedientes por caso, AIMS, cláusulas de datos, model registry. Si no las tenés, no compras / no vendés / no escalás.
Estándares como reemplazo temporal. Mientras no exista ley local, use ISO/IEC 42001 (AIMS) + NIST AI RMF/GAI como marco mínimo exigible y prueba de diligencia.

Señales tempranas.

Políticas que no bajan a procedimiento ni a RACI; matrices de riesgo vacías; model cards que nadie mantiene.

Medidas inmediatas.

Mapa de casos con su categoría regulatoria y controles exigidos por cada uno.
Expediente vivo por caso: datasets y lineage, versión de modelo/prompts, métricas de calidad y riesgo, umbrales de HITL, red-teaming y evidencias.
Cláusulas contractuales mínimas: no-entrenamiento, data lineage, portabilidad (plan de salida probado), auditorías.
Ensayos de “auditoría en frío” trimestrales (reconstruir una decisión extremo a extremo en 2 minutos).

“Cumplir no es un informe: es poder demostrarlo en cualquier momento, caso por caso.”

c) Gobernanza deficitaria (AIMS + gestión de riesgo)

Qué es. Sin un AI Management System (ISO/IEC 42001) y NIST AI RMF operativo, “tenemos un modelo” no equivale a “tenemos un sistema bajo gobierno”. Falta RACI, model registry, change management, post-mortems, criterios de go/no-go y un ciclo de vida controlado.

Cómo se manifiesta.

Versionado informal de prompts/modelos.
Decisiones automatizadas sin dueño ni umbral de intervención humana.
Incidentes que se repiten porque no hay aprendizaje organizacional.

Señales tempranas. Runbooks desactualizados, decisiones críticas sin owner, tableros que muestran “precisión” pero nada de riesgo o costo.

Medidas inmediatas.

RACI claro: Data Owner, Model Owner, Product, Security, Compliance.
Registro de modelos y CI/CD de prompts con canary y rollback.
Comité de IA con poder de stop y rituales de revisión (mensual/t1).
Post-mortems obligatorios y biblioteca de design docs.

Frase para pegar en la pared. “Gobernar es decidir quién decide, con qué evidencia y hasta dónde.”

d) Economía opaca y lock-in

Qué es. TCO que explota al pasar a producción (tokens, embeddings, retrieval caro), dependencia de un único proveedor, egress fees y formatos cerrados. Sin coste por decisión, la IA puede mejorar métricas… y destruir margen.

Cómo se manifiesta.

Facturas nube con pendiente exponencial.
Imposibilidad de migrar prompts, vectores o datasets sin reescribir todo.
Equipos “optimizando al costo” y degradando calidad.

Señales tempranas. Falta de cache hit-rate, enruta todo al modelo más caro, observability inexistente, SLA de coste ausente.

Medidas inmediatas.

Modelo económico por caso: cost per decision y límites de gasto.
Multi-proveedor y plan de salida testeado (export/import real).
Routing por complejidad y caching en top queries.
Distillation/lighter models donde aplique; batching inteligente.

Frase para CFO. “IA sin economía es filantropía con tu P&L.”

e) Datos sin higiene

Qué es. Sin lineage, frescura y calidad en atributos críticos, el modelo amplifica ruido: garbage in, high-confidence garbage out. En RAG, documentos desactualizados o sin chunking adecuado generan factualidad ilusoria.

Cómo se manifiesta.

Respuestas “correctas” basadas en documentos viejos o duplicados.
Variables clave con missing o diccionarios inconsistentes entre sistemas.
Equipos discutiendo el modelo cuando el problema es dato y proceso.

Señales tempranas. Freshness por debajo del SLA, lineage incompleto, drift de features sin causa conocida.

Medidas inmediatas.

Catálogo y lineage extremo a extremo; golden datasets por dominio.
SLA de frescura y tableros de calidad (unicidad, completitud, validez).
Políticas de anonimización/redacción en no-prod.
En RAG: curaduría, chunking, re-ranking y validación de citas.

Y mi Frase para el COO. “Sin proceso y dato limpio, la IA solo acelera el error.”

Estas cinco fallas no atacan solas: conspiran. El agujero de datos habilita alucinaciones; la alucinación dispara un incidente; el incidente desnuda que no había gobierno; la remediación choca contra el lock-in; y el regulador llega cuando ya estás en titulares. La buena noticia: los mismos cinco frentes, bien diseñados, se convierten en barreras defensivas y en ventaja competitiva: menos superficie de ataque, evidencia lista para auditoría, costos controlados, y velocidad con control.

“El riesgo no se terceriza: se diseña, se mide y se gobierna.”

cómo detectar a tiempo a los que te traen estos problemas

Con el mapa de riesgos claro, el siguiente paso es levantar las banderas rojas en proveedores: distinguir a quienes ejecutan con evidencia de quienes venden slideware. En la próxima sección bajamos a tierra una scorecard práctica de IA-washing: métricas, preguntas trampa y umbrales para cortar a tiempo. ¿Vamos?

Mi Frase para recordar: “La IA que no llega a producción es marketing; la que llega sin controles es un incidente esperando un titular.”

2) Banderas rojas para detectar IA-washing

Cómo usar esto: en una llamada de 30–45 minutos, pedí artefactos (no powerpoints) y hacé 3 preguntas trampa por punto. Con el mini-score (0–2) cortás en el momento.

a) “Casos” que son POCs sin usuarios ni KPIs de negocio

Por qué es rojo: un POC sin usuarios/ingresos/ahorros es un demo, no un producto.

Evidencias que pido: tablero de producción (usuarios activos, cohortes, run-rate), query reproducible de la métrica de negocio, baseline + uplift.

Preguntas trampa:

¿Cuál fue el KPI de negocio que pasó de X→Y y con qué N de usuarios?
Mostrame la query o el dashboard ahora mismo (pantalla compartida).
¿Qué decisión automatiza y cuál es el umbral para escalar a humano? Mini-score: 0 = nada reproducible | 1 = hay demo con métricas suaves | 2 = KPI duro con query y cohortes.

b) Ausencia de métricas de error (alucinación, sesgo, toxicidad) y sin red-teaming

Por qué es rojo: sin medir error, no sabés tu riesgo; sin red-team, no conocés tu superficie de ataque.

Evidencias: eval set etiquetado, tasa de alucinación/factualidad, matriz de confusión/precision-recall según caso, informe de red-teaming (OWASP LLM) con remediaciones.

Preguntas trampa:

Decime tus tres failure modes más frecuentes y cómo los mitigaron.
¿Cada cuánto re-evalúan y con qué tamaño de muestra?
Mostrá un informe de red-team (aunque esté anonimizado).Mini-score: 0 = no saben definir error | 1 = métricas sueltas | 2 = eval + red-team periódico con fixes.

c) Propuestas que ignoran AI Act / ISO 42001 / NIST AI RMF

Por qué es rojo: sin marco, no hay auditoría ni escalabilidad regulatoria.

Evidencias: tabla de mapeo por caso (categoría + controles), expediente de ejemplo (datos, lineage, versión de modelo/prompts, métricas, HITL, red-team), política AIMS (ISO/IEC 42001) mínima.

Preguntas trampa:

¿Qué categoría tendría este caso en AI Act y qué controles aplican?
Mostrá un expediente completo (aunque sea de otro cliente, anonimizado).
¿Cómo operan su AIMS (rituales, RACI, evidencias)?Mini-score: 0 = “no aplica” | 1 = conoce siglas | 2 = mapeo + expediente + rituales.

d) Contratos sin no-entrenamiento con tus datos ni política de retención/depuración

Por qué es rojo: riesgo legal y de propiedad intelectual, además de fuga competitiva.

Evidencias: cláusula no-training, DPA con retención/depuración, data lineage, jurisdicción y subprocesadores.

Preguntas trampa:

¿Qué pasa con mis embeddings al terminar el contrato?
¿Dónde residen y quién es processor?
Mostrá el schedule de retención y evidencia de borrado verificable.Mini-score: 0 = contrato vacío | 1 = promesa sin letra | 2 = cláusulas + evidencias.

e) Arquitecturas sin portabilidad (prompts, vectores, datasets) ni plan de salida

Por qué es rojo: el lock-in te encarece cada iteración y te inmoviliza ante incidentes.

Evidencias: export/import de prompts, dump del vector store (formato abierto), IaC del entorno, runbook de salida probado.

Preguntas trampa:

Hagamos ahora un ejercicio de salida de 15 minutos: export de prompts y vectores.
¿Qué queda en mi control si mañana cambiamos de proveedor?
¿Tienen ADRs (Architecture Decision Records) justificando elecciones?Mini-score: 0 = “se puede” sin prueba | 1 = documentación | 2 = salida testeada.

f) Sin SLA/SLO de modelos, ni monitoreo de drift y costo por decisión

Por qué es rojo: sin SLO no existe calidad comprometida; sin drift ni costo, volás a ciegas.

Evidencias: SLO de calidad/latencia, error budget, alertas, tablero de drift (PSI/KL) y de cost per decision con límites.

Preguntas trampa:

Mostrá un incidente reciente y el post-mortem (MTTD/MTTR/rollback).
¿Cuál es el coste por decisión y su guardrail?
¿Qué alertas disparan canary o kill-switch?Mini-score: 0 = nada operativo | 1 = SLO declarativo | 2 = SLO vivo + observabilidad + guardrails.

f) “Senior” que no muestra design docs, post-mortems ni referencias en tu vertical

Por qué es rojo: senior sin delivery es una promesa sin memoria institucional.

Evidencias: design docs, post-mortems reales, referencias en tu industria y equipo estable (no solo bench).

Preguntas trampa:

Traé un post-mortem donde se equivocaron y qué cambiaron.
¿Quién es el Model Owner y qué decisiones puede frenar?
Dame dos referencias de mi vertical con contacto.Mini-score: 0 = relato | 1 = documentos sueltos | 2 = documentación sólida + referencias.

Prueba de escritorio en 30 minutos (mata el humo)

Export de prompts + vectores en vivo.
Mostrar un expediente completo (anonimizado).
Simular auditoría en frío de una decisión.
Ver alertas y rollback ante un canary fail.
Ejecutar un “ejercicio de salida” (plan de salida abreviado).

“No compres presentaciones: comprá evidencias reproducibles.”

Mini-score de corte (rápido y objetivo)

0–6 puntos (de 12 posibles): Descartar.
7–9: Condicional (POC controlado, sin datos sensibles, con salidas y SLO).
10–12: Avanzar a contrato (con anexos de datos, AIMS y plan de salida firmado).

Tranquilo, voy al detalle punto a punto para que puedas identificar a los farsantes

1) Dimensiones que puntuás (7 ítems, 0–2 puntos cada uno)

Producción real vs. POC (usuarios, KPI de negocio, uplift/ahorro).
Métricas de error + red-teaming (alucinación/sesgo/toxicidad + OWASP LLM).
Marco y evidencias (AI Act / ISO 42001 / NIST AI RMF mapeado por caso).
Datos y contrato (no-entrenamiento, retención/depuración, subprocesadores).
Portabilidad y plan de salida (prompts, vectores, datasets, IaC, prueba real).
SLA/SLO + observabilidad (drift, coste por decisión, alertas, rollback/canary).
Senior con cicatrices (design docs, post-mortems, referencias en tu vertical).

Máximo = 14 puntos.

Hard fails: si en 4, 5 o 6 sacan 0, descarta o limita a POC sandbox sin datos sensibles.

2) Escala de puntuación (idéntica para las 7)

0 = Relato. No hay artefactos reproducibles; “después te mandamos”.
1 = Parcial. Hay documentos o dashboards, pero no se pueden probar en vivo o no cubren todo (p. ej., métricas sin eval set).
2 = Evidencia viva. Comparten pantalla y muestran: query/tablero/expediente/export funcionando; informes con fechas; dueño responsable; se puede replicar.

3) Artefactos mínimos por dimensión (qué pedir en la call)

Prod vs POC: dashboard con usuarios activos/cohortes + query de KPI; baseline y uplift.
Error + red-team: eval set etiquetado, tasa de alucinación; informe OWASP LLM con remediaciones.
Marco: tabla de mapeo por caso; expediente (datos→modelo/prompts→decisión, HITL, métricas) y política AIMS.
Contrato/datos: cláusula no-training, DPA con retención/borrado verificable, data lineage, lista de subprocesadores.
Portabilidad: export/import en vivo de prompts y vectores; dump en formato abierto; IaC y runbook de salida probado.
SLA/SLO/obs: SLO de calidad/latencia + error budget; tablero de drift (PSI/KL); coste por decisión con límites; alerta→rollback/canary.
Senior real: design docs, post-mortem de un fallo (qué cambió), 2 referencias de tu industria.

4) Cálculo y decisión (en frío, sin romanticismo)

Total = suma de los 7 puntajes (0–14).
Corte recomendado:
- 0–7 → Descartar.
- 8–10 → Condicional: solo POC controlado (sin datos sensibles) con salida y SLO firmados en 30 días.
- 11–14 → Avanzar a contrato, anexando: no-training, AIMS/expediente, plan de salida probado, guardrails de costo.

Regla de seguridad: si 4, 5 o 6 = 0, no importa el total: hard fail.

5) Guion de la call (30–45’)

5’ contexto y casos de uso (para acotar).
8’ Producción vs POC: “mostrá la query del KPI y usuarios activos”.
7’ Error + red-team: “muéstrame el eval y el último informe”.
7’ Marco/expediente: “abrí un expediente completo (anonimizado)”.
8’ Portabilidad y SLO: ejercicio en vivo de export + alerta→rollback.
5’ Senioridad: post-mortem real + referencias.

Tip: Dos evaluadores puntúan por separado. Si hay ≥2 puntos de diferencia en el total, se revisa evidencia grabada.

6) Ejemplo rápido (para calibrar el ojo)

Proveedor A: Prod 2, Error 1, Marco 2, Contrato 1, Portabilidad 0 (hard fail), SLO 1, Senior 2 → 8, pero descartapor 0 en Portabilidad.
Proveedor B: Prod 2, Error 2, Marco 2, Contrato 2, Portabilidad 2, SLO 1, Senior 1 → 12 → Avanzar (condición: robustecer SLO en 30 días).

7) Variantes (si sos banco/aseguradora)

Mantener el mismo esquema pero aplicar “doble chequeo” en Error+red-team, Marco, Contrato, Portabilidad y SLO: si cualquiera de esos puntúa 1, exigir plan de remediación con fecha; si puntúa 0, hard fail.

8) Cierre práctico

Sin artefactos, no hay puntos.
Lo que no se puede mostrar en vivo, no existe.
Evidencia o fuera.

Con estas banderas y pruebas de escritorio, pasamos a la scorecard para RFP y al plan 0–90 días: qué KPIs firmar, cómo portabilizar desde el día uno y qué rituales de gobierno sostienen producción sin sorpresas. ¿Entramos ahí?

Frase para comprar bien: “Si no pueden explicar cómo miden el error, te están vendiendo fe.”

3) Nueve decisiones del Board que no se delegan

La IA deja de ser un “tema técnico” cuando automatiza decisiones que tocan clientes, riesgo, marca y P&L. Ahí el tablero cambia: el Board no programa modelos, pero fija límites, define renuncias y aprueba evidencias. Estas nueve decisiones son el contrato de gobierno entre estrategia y operación. Si faltan, la organización navega por intuición; si están, la IA se vuelve ventaja compuesta bajo control.

Apetito de riesgo y umbrales de autonomía

Decisión. Qué puede ejecutar la IA sin humano-en-el-loop, con humano-en-el-loop y nunca automatizar.

Por qué Board. Define impacto en clientes y compliance.

Artefactos a aprobar. Declaración de apetito de riesgo (por caso de uso), matriz de umbrales y kill-switch.

Preguntas de control. ¿Qué pérdida máxima por mes acepto por error de modelo? ¿Quién frena?

KPI. % decisiones dentro de umbral; incidentes por fuera de apetito.

Priorización por P&L (y criterio de “no”)

Decisión. Top-3 apuestas por valor (ingreso/ahorro) y descarte explícito de lo que no se hará.

Por qué Board. Evita el “POC eterno” y el zoo de iniciativas.

Artefactos. Backlog priorizado por business case, time-to-value y riesgo.

Preguntas. ¿Qué cortamos si el TTV > 90 días?

KPI. VNG (valor neto generado), TTV y % iniciativas canceladas a tiempo.

Arquitectura target y portabilidad (plan de salida)

Decisión. Multi-proveedor, formatos abiertos y salida probada desde el día 1.

Por qué Board. El lock-in destruye margen y resiliencia.

Artefactos. ADRs (decisiones de arquitectura), runbook de salida, prueba de export/import.

Preguntas. ¿Podemos migrar prompts/vectores en 1 día?

KPI. Tiempo real de salida; % componentes portables.

Gobernanza: AIMS operativo y RACI con poder de “stop”

Decisión. Adoptar ISO/IEC 42001 y un RACI que asigne dueños (Data Owner, Model Owner, Product, Security, Compliance).

Por qué Board. Gobierno sin poder es teatro.

Artefactos. Políticas, rituales mensuales, model registry, change management, post-mortems obligatorios.

Preguntas. ¿Cuándo se reúne el Comité de IA y qué puede vetar?

KPI. Cobertura AIMS; hallazgos críticos y MTTR de remediación.

Seguridad LLM (OWASP) y red-teaming continuo

Decisión. Controles mínimos, cadencia de red-team e integración a SIEM.

Por qué Board. La superficie de ataque crece con cada integración.

Artefactos. Política OWASP LLM, plan de pruebas (inyección indirecta, jailbreak, supply chain), runbooks de respuesta.

Preguntas. ¿Qué alerta dispara kill-switch y rollback?

KPI. Incidentes 0; simulaciones/mes ≥1; MTTP <72h.

Cumplimiento y evidencia reproducible

Decisión. Mapeo por caso a AI Act/espejos, con expediente listo en 2 minutos.

Por qué Board. Sin evidencia, no hay cumplimiento demostrable.

Artefactos. Expedientes (datos→modelo/prompts→decisión, HITL, métricas, red-team).

Preguntas. ¿Podemos auditar hoy una decisión sensible extremo a extremo?

KPI. % casos con expediente completo; auditorías “en frío” aprobadas.

Economía: guardrails y coste por decisión

Decisión. Límites de TCO y cost per decision por caso, con alertas.

Por qué Board. La IA puede mejorar métricas… y comerse el margen.

Artefactos. Modelo FinOps, presupuestos por unidad de valor, políticas de routing y caching.

Preguntas. ¿Cuál es el error budget de costo?

KPI. Coste por decisión vs. tope; ahorro neto.

Personas y operating model

Decisión. Qué capacidades construyo in-house, cuáles compro y cómo habilito adopción.

Por qué Board. Sin músculo interno, solo hay dependencia.

Artefactos. Centro de excelencia (o product squads), plan de talento, entrenamiento y métricas de adopción.

Preguntas. ¿Quién es el Model Owner en cada caso?

KPI. Adopción interna (>75% a 90 días); % decisiones con HITL bien aplicado.

Ética, reputación y transparencia

Decisión. Umbrales de disparidad, explicabilidad y plan de crisis.

Por qué Board. Proteger marca y licencia social para operar.

Artefactos. Política de explicabilidad, límites de fairness, playbook de comunicación de incidentes.

Preguntas. ¿Qué publicamos si hay error con impacto en clientes?

KPI. Quejas regulatorias/PR = 0; % decisiones explicables >95%.

Frase para recordar. “El Board no aprueba modelos: aprueba límites, evidencias y salidas.”

Estas nueve decisiones encuadran qué automatizamos, con qué riesgos y bajo qué pruebas. Marcan el terreno donde la IA suma valor sin hipotecar reputación ni margen. Con ellas, cada proyecto deja de ser una apuesta aislada y se vuelve parte de un sistema repetible.

Con el marco del Board definido, toca exigirlo en la cancha: scorecard de proveedores, mini-score anti IA-washing y plan de 90 días para poner dos casos en producción con KPIs firmados y guardrails activos. ¿Seguimos con la scorecard + ejecución?

“La estrategia de IA es, sobre todo, una estrategia de renuncias.”

4) Scorecard para exigirle a cualquier consultora (100 pts)

Para qué sirve. Convertir la venta en evidencias comparables. Se puntúa 0–5 por dimensión y se pondera. Corte: < 75= no avanzar. ≥ 85 = preferente. ≥ 90 = socio estratégico (con anexos de datos y plan de salida firmados).

Frase para acordarse: “No compres presentaciones; compra evidencias.”

Cómo puntuar (rúbrica general 0–5)

0 — Ausente/relato. PowerPoints, promesas; nada reproducible.
1 — Documental. Políticas genéricas o capturas; sin prueba en vivo.
2 — Parcial. Evidencias existen, pero incompletas o no operativas.
3 — Operativo. Funciona en producción con dueños, procesos y métricas.
4 — Sólido con verificación. Automatizado, probado (canary/rollback), visible en tableros.
5 — Referente. Mejor práctica: auditorías externas, pruebas de salida reales, post-mortems y mejoras sistemáticas.

Reglas de penalización automática:

Sin no-entrenamiento de tus datos → Cumplimiento ≤2.
Sin plan de salida probado → Arquitectura ≤2.
Sin SLO vivo y drift monitoreado → MLOps ≤2 / Seguridad ≤2.

Dimensiones, pesos, evidencias y pruebas en vivo

1) Impacto de negocio (30)

Qué mide: resultado en P&L y velocidad a valor.

Evidencias mínimas:

KPI firmado, baseline y objetivo trimestral por caso.
Query reproducible o dashboard con usuarios activos/cohortes.
Cálculo de VNG y TTV.Prueba en vivo (5’): compartir pantalla y mostrar la query del KPI (baseline → uplift).0–5: 0=sin KPI | 3=KPI en producción con dueños | 5=KPI, atribución y run-rate auditables.

2) Arquitectura & Portabilidad (15)

Qué mide: evitar lock-in y poder salir sin trauma.

Evidencias mínimas:

Infra-as-code (IaC), ADRs, blueprints.
Export/import de prompts y vectores (formato abierto).
Runbook de salida probado (tiempo real medido).Prueba en vivo (8’): ejercicio de salida abreviado: exportar prompts + dump de vector store ahora.0–5: 0=“se puede” sin prueba | 3=portabilidad demostrada | 5=salida testeada end-to-end con tiempos y rollback.

3) Seguridad (15)

Qué mide: controles OWASP-LLM y respuesta a ataques.

Evidencias mínimas:

Política OWASP LLM: inyección indirecta, jailbreak, supply chain.
Red-teaming periódico + remediaciones; integración a SIEM.
Kill-switch y rollback definidos.Prueba en vivo (7’): mostrar último informe de red-team y un post-mortem (alerta → decisión → rollback).0–5: 0=sin pruebas | 3=controles y simulaciones | 5=simulaciones mensuales + MTTP<72h y aprendizaje institucional.

4) Gobernanza (15)

Qué mide: AIMS (ISO/IEC 42001) operativo y accountability.

Evidencias mínimas:

RACI con poder de stop (Model Owner, Data Owner, Security, Compliance, Product).
Model registry, change management, post-mortems obligatorios.
Ritual mensual del Comité de IA (actas).Prueba en vivo (5’): abrir registro de modelos y acta reciente con decisiones/umbrales.0–5: 0=gobierno “de papel” | 3=rituales funcionando | 5=AIMS vivo + decisiones trazables por caso.

5) Cumplimiento (10)

Qué mide: trazabilidad vs AI Act / NIST GAI Profile por caso.

Evidencias mínimas:

Mapa de casos con categoría y controles exigidos.
Expediente por caso: datos→modelo/prompts→decisión, HITL, métricas, red-team.
Cláusulas: no-entrenamiento, retención/depuración, auditorías, data lineage y portabilidad.Prueba en vivo (5’): mostrar un expediente completo (anonimizado) y reconstruir una decisión en 2 minutos.0–5: 0=desconoce marcos | 3=expedientes presentes | 5=auditoría “en frío” supera en tiempo real.

6) MLOps (10)

Qué mide: estabilidad y velocidad con control.

Evidencias mínimas:

CI/CD de prompts/modelos; canary y rollback.
Monitoreo de drift (PSI/KL), eval harness, observabilidad.
SLO de calidad/latencia + error budget.Prueba en vivo (5’): disparar un canary fallido y mostrar rollback + alertas.0–5: 0=manual/adhoc | 3=pipelines y SLO activos | 5=automatizado, con alertas y rollbacks probados.

7) Economía (5)

Qué mide: FinOps y control de cost per decision.

Evidencias mínimas:

Modelo de TCO 12–24m, límites por caso y guardrails.
Routing por complejidad, caching, distillation donde aplique.
Tablero de coste por decisión y tokens/consulta.Prueba en vivo (3’): mostrar alerta por sobrecoste y acción automática (rebajar modelo/activar caché).0–5: 0=sin números | 3=guardrails activos | 5=optimización continua con impacto en margen.

Cómo decidir (con números y sin romanticismo)

Ponderá cada dimensión con su peso (30/15/15/15/10/10/5).
Aplica las penalizaciones automáticas (no-training, salida no probada, SLO/drift).
Corte:
- <75 → NO avanzar.
- 75–84 → Riesgo alto: solo POC sandbox sin datos sensibles y con salida firmada.
- 85–89 → Preferente: contrato acotado, milestones y anexos de datos.
- ≥90 → Socio estratégico: fija tablero de KPIs, comité y run-rate.

Desempates (tres preguntas):

¿Cuánto tarda su plan de salida medido en horas/días?
¿Qué post-mortem relevante hicieron el último trimestre y qué cambió?
¿Cuál es el coste por decisión hoy y su tope?

Ejemplos de calibración

Consultora A: Impacto 22/30, Arq 8/15, Seguridad 9/15, Gob 10/15, Cumpl 6/10, MLOps 6/10, Eco 3/5 → 64/100→ NO avanzar (además, sin plan de salida probado → Arq ≤2: penaliza más).
Consultora B: Impacto 26, Arq 13, Seg 13, Gob 12, Cumpl 9, MLOps 8, Eco 4 → 85/100 → Preferente(condición: robustecer MLOps a SLO<latencia 300ms y drift semanal).
Consultora C: Impacto 28, Arq 14, Seg 14, Gob 13, Cumpl 10, MLOps 9, Eco 5 → 93/100 → Socio estratégico(firmar anexos y salida).

Cómo usarla en RFP y en la call técnica

RFP: exigir artefactos (no PDFs) y prueba de escritorio pautada (export prompts+vectores, expediente, canary→rollback).
Call 45’: seguir el guion (Impacto 5’, Arq 8’, Seg 7’, Gob 5’, Cumpl 5’, MLOps 5’, Eco 3’). Dos evaluadores puntúan; si difieren >2 pts, revisión grabada.

Con la scorecard elegís quién. Ahora definimos cómo: un plan de 90 días que ponga dos casos en producción con KPIs firmados, guardrails activos y evidencia lista para auditoría. ¿Entramos al 0–90?

5) Cuadro de mando de KPIs (lo que no debería faltar)

“Lo que no se mide, se racionaliza; lo que se mide, se gobierna.”

Tablero ejecutivo de métricas para la inteligencia artificial, mostrando indicadores clave como VNG, TTV, coste por decisión, calidad, drift, cumplimiento, seguridad y CSAT/NPS.

No alcanza con “medir algo”: hay que medir lo que gobierna. Este tablero ata cada decisión automatizada con su impacto en P&L, riesgo, costo y experiencia, y es auditable: se entiende en 5 minutos y se desarma en 50, con query/fuente trazable, dueño, cadencia y acción definida para Rojo/Ámbar.

Notación: [Leading] anticipa; [Lagging] resulta. ↑ = más es mejor; ↓ = menos es mejor.

La trampa habitual son los vanity metrics: latencias bonitas y dashboards prolijos que no mueven ni margen ni riesgo. El tablero correcto mezcla leading (drift, costo por decisión, tasa de escalado, cobertura de controles) y lagging (VNG, uplift, CSAT/NPS, hallazgos), baja desde el dial ejecutivo hasta el expediente por caso (datos → versión de modelo/prompts → decisión → evidencia), y está conectado a producción—no a screenshots.

“Si un KPI no dispara una acción o un costo, es decoración.”

A continuación, los KPIs que no pueden faltar y cómo se interpretan para gobernar IA con resultados y sin sorpresas.

Impacto de negocio (North Star)

Valor Neto Generado (VNG) [Lagging] (↓/↑ según signo)Meta: >0 (90d); >3× (12m) · Owner: CFO + Sponsor · Cadencia: mensual · Fuente: DW financiero · Acción:Rojo → congelar despliegues y revisar hipótesis/segmentación.
Time-to-Value (TTV) [Leading] (↓)Meta: <90d; Rojo >120 · Owner: PMO · Cadencia: semanal · Fuente: JIRA/PMO · Acción: Rojo → pivot o kill.
% Decisiones con outcome positivo [Lagging] (↑)Meta: >70% a 6m · Owner: Sponsor del caso · Cadencia: mensual · Fuente: logs de decisión + DW · Acción:Rojo → subir umbrales HITL / ajustar política.
Uplift por caso (venta/fraude/cobranza) [Lagging] (↑)Meta: +10–30% según canal · Owner: Growth/Riesgo · Cadencia: mensual · Fuente: A/B/CRM · Acción: Rojo→ pausar canal/segmento y reentrenar.

Calidad del modelo (impacta P&L)

Factualidad auditada (Gen) [Leading] (↑)Meta: ≥97% dominios regulados; ≥95% resto · Owner: Risk/Quality · Cadencia: semanal · Fuente: eval set etiquetado · Acción: Rojo → “solo-con-cita” + ampliar RAG.
Precisión/Recall (por caso) [Leading] (↑)Meta: según coste de error (fraude → Recall; originación → Precisión) · Owner: DS · Cadencia: semanal · Fuente: eval harness · Acción: ajustar umbrales/HITL.
Calibración (Brier/ECE) [Leading] (↓)Meta: mejora Q/Q · Owner: DS · Cadencia: mensual · Fuente: eval harness · Acción: recalibración/thresholds.
Hit@k / Recall@k en RAG [Leading] (↑)Meta: ≥85% @k=5 · Owner: Data/Docs · Cadencia: semanal · Fuente: RAG eval · Acción: Rojo → ajustar chunking/reranking y bloquear sin evidencia.
Cite-Validation Rate [Leading] (↑)Meta: ≥95% (dominios críticos) · Owner: Risk/Quality · Cadencia: semanal · Fuente: validador de citas · Acción:bloquear respuestas sin cita válida en críticos.
Tasa de escalado a humano [Leading] (↓)Meta: tendencia ↓ sin perder calidad · Owner: Operaciones · Cadencia: semanal · Fuente: contact center/ticketing · Acción: revisar prompts/políticas y habilitación.

Riesgo & Cumplimiento

Conformidad AI Act por caso [Leading] (↑)Meta: 100% alto riesgo; ≥90% GPAI (remediación ≤30d) · Owner: Compliance · Cadencia: mensual · Fuente:expediente por caso · Acción: Rojo → detener caso hasta completar controles.
Cobertura AIMS (ISO/IEC 42001) [Leading] (↑)Meta: >80% en 90d · Owner: Gobernanza IA · Cadencia: mensual · Fuente: matriz políticas/procesos · Acción:comité extraordinario y cierre de brechas.
Hallazgos críticos abiertos + MTTR [Lagging] (↓)Meta: 0 críticos; P0<7d / P1<14d / P2<30d · Owner: Auditoría · Cadencia: semanal · Fuente: GRC · Acción:Rojo → freeze de features hasta remediar.
Trazabilidad de decisiones (<2 min) [Leading] (↑)Meta: >95% · Owner: Gobernanza IA · Cadencia: mensual · Fuente: model registry/lineage · Acción: Rojo → bloquear automatización sin trazabilidad.

Seguridad (LLM y datos)

Incidentes por inyección / mes [Lagging] (↓)Meta: 0 reales; ≥1 simulación/mes · Owner: SecOps · Cadencia: mensual · Fuente: SIEM · Acción: Rojo → kill-switch, rotar secretos, hardening.
Bloqueo de intentos maliciosos [Leading] (↑)Meta: >99% · Owner: SecOps · Cadencia: mensual · Fuente: WAF/SIEM · Acción: reforzar reglas y prueba de intrusión.
Exfiltración PII confirmada [Lagging] (↓)Meta: 0 · Owner: SecOps · Cadencia: mensual · Fuente: DLP · Acción: plan de crisis y notificación regulatoria.
Tiempo a parche (MTTP) [Leading] (↓)Meta: P0<24h; P1<72h · Owner: SecOps · Cadencia: semanal · Fuente: gestión de cambios · Acción: Rojo → P0 y war room.

Datos

Freshness datasets [Leading] (↑)Meta: >95% dentro de SLA · Owner: Data Eng · Cadencia: semanal · Fuente: DataOps · Acción: priorizar pipelines críticos.
Compleción de data lineage [Leading] (↑)Meta: >90% e2e · Owner: Data Gov · Cadencia: mensual · Fuente: catálogo/lineage · Acción: corregir data contracts y ownership.
Calidad crítica (atributos clave) [Leading] (↑)Meta: >98% (unicidad/completitud/validez) · Owner: Data Gov · Cadencia: semanal · Fuente: DQ dashboards · Acción: bloquear training/serving con DQ en rojo.
Anonimización en no-prod [Leading] (↑)Meta: 100% · Owner: Data Eng · Cadencia: mensual · Fuente: DevSecOps · Acción: cortar accesos y remediar.

MLOps & Operación

Frecuencia de despliegue [Leading] (↑)Meta: ≥2/mes por caso activo · Owner: ML Eng · Cadencia: mensual · Fuente: CI/CD/MLflow · Acción: eliminar cuellos y automatizar tests.
Rollback Time [Leading] (↓)Meta: <30 min (P0) · Owner: ML Eng · Cadencia: semanal · Fuente: CI/CD/SRE · Acción: estandarizar flags y rollback automático.
Drift (PSI/KL) [Leading] (↓)Meta: PSI ≤0.25; Rojo si PSI>0.25 2 semanas · Owner: ML Eng · Cadencia: semanal · Fuente: observabilidad · Acción: rollback/canary + retraining/calibración.
Disponibilidad de inferencia (SLO) [Leading] (↑)Meta: ≥99.9% · Owner: SRE · Cadencia: mensual · Fuente: monitoreo · Acción: análisis de errores y capacidad.

Economía & Costos

Coste por decisión [Leading] (↓)Meta: < guardrail; −20–40% vs baseline · Owner: CFO · Cadencia: mensual · Fuente: FinOps/DW · Acción:rutear a modelo más simple; cache/distillation.
Tokens por consulta [Leading] (↓)Meta: tendencia ↓ · Owner: FinOps · Cadencia: semanal · Fuente: logs de inferencia · Acción: optimizar prompts/routing.
Cache hit-rate (LLM) [Leading] (↑)Meta: >50% en top queries · Owner: FinOps · Cadencia: semanal · Fuente: métricas de cache · Acción: ampliar caché; precalentar.
Costo por punto de uplift [Lagging] (↓)Meta: tendencia ↓ · Owner: CFO · Cadencia: mensual · Fuente: DW financiero/marketing · Acción: optimizar targeting/creativos/modelos.

Experiencia & Adopción

FCR asistido [Lagging] (↑)Meta: +10–20% vs baseline · Owner: CX · Cadencia: mensual · Fuente: CRM/CC · Acción: reforzar políticas y rutas a humano.
AHT asistido [Lagging] (↓)Meta: −15–30% sin caída de CSAT · Owner: CX · Cadencia: mensual · Fuente: CRM/CC · Acción: coaching a agentes; ajustar prompts.
CSAT/NPS canal IA [Lagging] (↑)Meta: ≥ baseline (gap ≤2 pts vs humano) · Owner: CX · Cadencia: mensual · Fuente: encuestas · Acción:fallback a humano y revisión de contenido.
Tasa de fricción [Leading] (↓)Meta: tendencia ↓ · Owner: CX · Cadencia: mensual · Fuente: analytics sesión/CRM · Acción: ajustar flujos y entrenamiento.

Ética, Sesgo & Reputación

Disparidad por grupo (|Δ|) [Leading] (↓)Meta: ≤4 pp · Owner: Compliance · Cadencia: mensual · Fuente: auditoría fairness · Acción: suspender automatización en segmento; mitigaciones.
Explicabilidad operativa (<2 min) [Leading] (↑)Meta: >95% · Owner: Product · Cadencia: mensual · Fuente: XAI/app agente · Acción: bloquear decisión automática sin explicación válida.
Quejas regulatorias/PR por IA [Lagging] (↓)Meta: 0 · Owner: PR/Legal · Cadencia: mensual · Fuente: PR/Helpdesk · Acción: plan de crisis y rectificación.

Delivery & Cambio

Lead time de cambio [Leading] (↓)Meta: <4 semanas/iteración · Owner: PMO · Cadencia: mensual · Fuente: DevOps/JIRA · Acción: kaizen/retroobligatoria; remover cuellos.
Adopción interna [Leading] (↑)Meta: >75% al mes 3 · Owner: HR/Enablement · Cadencia: mensual · Fuente: SSO/analytics · Acción: reforzar habilitación e incentivos.
Entrenamiento efectivo [Leading] (↑)Meta: >90% · Owner: HR/Enablement · Cadencia: mensual · Fuente: LMS+evaluación · Acción: actualizar contenidos y repetir.

Colores sugeridos: Verde (cumple), Ámbar (±10% o degradación <2 semanas), Rojo (>10% o ≥2 semanas).

Regla de oro: todo KPI en Rojo tiene owner, causa raíz y fecha de remediación.

6) Plan de 90 días (de pilotos eternos a producción con control)

“El Go-Live no es el final; es el comienzo del control.”

Día 0–30 | Diagnóstico + Arquitectura target

Objetivo: al día 30, tener qué hacer, cómo hacerlo y con qué controles—listo para construir.

Entregables verificables

Inventario de casos & datos (valor, riesgo, factibilidad, TTV estimado).
Scorecard aplicada a partners (100 pts) + Mini-score IA-washing (0–14) con decisión (avanzar/condicional/descartar).
Mapa de cumplimiento por caso (AI Act/NIST-GAI/sectorial), con expediente mínimo exigible.
Arquitectura target (multi-proveedor, formatos abiertos, plan de salida medido).
Postura de seguridad LLM vs OWASP: superficie de ataque, tools y credenciales, runbooks de respuesta.
Plan de red-teaming (escenarios y cadencia).

Actividades críticas (semanas 1–4)

Semana 1: talleres de valor/risgo; baseline de KPIs (VNG, TTV, coste/decisión, factualidad).
Semana 2: data profiling (freshness, calidad, lineage) + definición de HITL por caso.
Semana 3: diseño de IaC, routing de modelos, cache y observabilidad; cláusulas no-entrenamiento y retención.
Semana 4: prueba de salida (export prompts/vectores) y cierre de ADRs (decisiones de arquitectura).

Checklist de salida (Gate A)

✅ Casos priorizados (Top-2) con KPI firmado y baseline.
✅ Expediente por caso: datos→modelo/prompts→decisión, HITL, métricas, red-team planificado.
✅ Arquitectura portable + salida probada (tiempo real medido).
✅ Riesgos y mitigaciones (seguridad/compliance/FinOps) con owners.

Riesgos frecuentes & mitigación

Datos sucios/no frescos: bloquear entrenamiento/serving si DQ en rojo; sprint de DataOps.
Lock-in encubierto: formatos abiertos, export demostrable, cláusulas de portabilidad firmadas.
Promesas sin KPIs: no construimos sin KPI duro y query reproducible.

Día 31–60 | Dos casos en producción con guardrails

Objetivo: al día 60, dos casos en producción limitada (real users), con controles activos y tablero operativo.

Entregables verificables

Diseño de HITL y umbrales de intervención (quién frena, cuándo y cómo).
CI/CD de prompts/modelos con canary y rollback automático.
Observabilidad viva:
- Calidad (factualidad, precisión/recall, calibración, Hit@k/Recall@k, Cite-Validation).
- Riesgo (sesgo, disparidad, explicabilidad).
- Operación (latencia, SLO, drift PSI/KL, coste por decisión, tokens, cache hit-rate).
Contratos cerrados: no-entrenamiento, retención/borrado, auditorías, subprocesadores.
Plan de salida firmado y testeado (export/import).

Actividades críticas (semanas 5–8)

Semana 5: desarrollo y pruebas; eval harness; guardrails (policy/filters).
Semana 6: despliegue canario; red-team (inyección indirecta/jailbreak/supply).
Semana 7: ajuste fino (prompt/params/routing); activar alertas y kill-switch.
Semana 8: abrir a cohortes reales; medir TTV y primer VNG parcial.

Checklist de salida (Gate B)

✅ Dos casos en producción con usuarios reales y SLO definidos.
✅ Tablero operativo conectado (sin screenshots), con acciones Rojo/Ámbar.
✅ Post-mortem de al menos 1 incidente simulado (alerta→rollback).
✅ Cost guardrails activos (rutear a modelo más simple/cache si excede).

Riesgos & mitigación

Deriva silenciosa: PSI>0.25 dos semanas → rollback + retraining/calibración.
Costo explosivo: alertas por token/consulta y cache; distillation y batching donde aplique.
Factualidad baja en RAG: endurecer “solo-con-cita”, mejorar chunking/reranking y fuentes.

Día 61–90 | Escala + gobierno

Objetivo: al día 90, gobierno operativo para escalar: políticas, roles, evidencias, tablero ejecutivo y plan 12 meses.

Entregables verificables

AIMS (ISO/IEC 42001) mínimo viable: políticas, RACI, rituales, model registry, change management, post-mortems obligatorios.
Dashboard ejecutivo (8 diales): VNG, TTV, Coste/decisión, Calidad, Drift, Cumplimiento, Seguridad, CSAT/NPS.
Auditoría “en frío” pasada: reconstruir una decisión extremo a extremo en <2 min.
Roadmap 12 meses: casos, inversiones, ROI, riesgo y economía por trimestre.

Actividades críticas (semanas 9–12)

Semana 9: formalizar Comité de IA con poder de stop; cerrar políticas.
Semana 10: auditoría “en frío” y correcciones; cerrar findings.
Semana 11: sesión Board: resultados 60 días, riesgos, costos, próximos 3 casos.
Semana 12: plan 12m y OKRs; transición a modo “Run”.

Checklist de salida (Gate C)

✅ AIMS operativo (no papel): actas, rituales y evidencias.
✅ Auditoría en frío aprobada.
✅ Tablero ejecutivo y operativo alineados a KPIs del negocio.
✅ Roadmap firmado (valor, riesgo, costo, personas).

Riesgos & mitigación

Gobernanza teatral: exigir evidencias (actas/expedientes/runbooks) y poder de veto real.
KPIs sin acción: cada indicador con owner, acción y fecha.
Dependencia externa: pairing sistemático, enablement y runbooks internos.

RACI y rituales (desde el día 1)

Model Owner (Product): decisiones de go/no-go, umbrales y kill-switch.
Data Owner: calidad/frescura/lineage y contratos de datos.
ML Eng/DS: modelos, eval, drift, CI/CD.
Security: OWASP LLM, red-team, SIEM, incident response.
Compliance/Legal: expediente por caso, cláusulas, auditorías.
FinOps/CFO: coste por decisión, guardrails y alertas.
Rituales: stand-up semanal de riesgo/operación; comité mensual de IA (decisiones, excepciones y “aprendizajes”).

Criterios de éxito (a 90 días)

2 casos en producción con SLO y HITL efectivos.
TTV < 90 días; VNG > 0 (run-rate); coste/decisión bajo guardrail.
Factualidad ≥95% (≥97% si regulado) y auditoría en frío superada.
AIMS operativo y plan de salida medido.

Con el plan trazado, paso a paso, lo operativizamos: due-diligence, arquitectura portable, guardrails, tableros y AIMSen 90 días. Si querés, tomamos tus 2–3 casos y arrancamos el Día 0 ya (te dejo la agenda y los templates).

7) ¿Cómo puedo ayudarte (y qué NO hago)?

Acá es donde bajo la persiana del humo y prendo las luces del taller. Si venís de pilots eternos, vendors que prometen magia y costos que suben sin tocar el P&L, mi propuesta es simple: evidencias en vivo, portabilidad desde el día 1 y riesgo gobernado por tu casa. Entro, separo ruido de señal, fijamos límites y métricas, y en 90 días hay dos casos en producción con guardrails—no demos.

Y no lo hacemos solos ni en una sala cerrada: lo hacemos con vos. Podemos arrancar con workshops prácticos (arquitectura portable, economía de IA, gobierno AIMS), seguir con sesiones conjuntas de evaluación a proveedores (scorecard 100 pts + mini-score 0–14, pruebas en vivo de export/prompts/rollback), sumar clínicas de KPIs para armar el tablero que el CFO entiende en cinco minutos, y correr simulacros de red-teaming (inyección indirecta, jailbreak, supply chain) con tu equipo. Si hace falta, hacemos briefings para el Board y días de co-creación técnica con tus squads para dejar runbooks y ownership adentro.

Trabajo con una idea fija: no necesitás más IA; necesitás IA que resista auditorías y genere P&L. Eso significa due-diligence sin romanticismo, arquitectura que no te encierra, gobierno que se sostiene cuando yo no estoy y un tablero con acciones, no decoración. No necesito tu fe; necesito tus logs. Abajo va exactamente lo que hago (y lo que no hago), sin adornos y con entregables verificables y fechas.

Cómo trabajo

Sprints de 2 semanas, agenda pública y entregables verificables.
Workshops y co-creación: arquitectura portable, economía de IA, AIMS, clínicas de KPIs, y simulacros de red-teaming con tu equipo.
Sesiones conjuntas de evaluación de proveedores: scorecard 100 pts + mini-score 0–14, pruebas en vivo (export de prompts/vectores, expediente, canary→rollback).
Evidencias o fuera: nada de “después te mando”; todo se muestra en pantalla y queda con fuente/query.
Handoff real: dejo runbooks, tableros conectados, y gente entrenada; pairing con tus squads hasta que no me necesiten.
Plan 0–90: dos casos en producción con HITL, SLO, drift/costo monitoreado, no-entrenamiento en contrato y plan de salida probado.

Lo que NO Hago

No tercerizo tu riesgo ni creo dependencia: construyo capacidad interna, no “cajas negras”.
No vendo slideware: sin expediente, sin portabilidad probada, sin SLO vivo → no avanzamos.
No lock-in “accidental”: formatos abiertos, export/import testeado, plan de salida firmado.
No magia: si el problema es dato/proceso, primero ordenamos la casa (DQ, lineage, HITL).
No promesas sin costo: cada mejora tiene guardrails y cost per decision.

Lo que espero de vos

Sponsor con poder y acceso a Board/SteerCo cuando haga falta.
Dueños claros por caso (Model Owner, Data Owner, Security, Compliance, CFO) y disponibilidad para workshops/simulacros.
Acceso a datos/ambientes y logs reales (o entornos espejo) para medir VNG, TTV, coste/decisión, factualidad/Hit@k.
Decisiones con tiempo: si TTV > 120 días, acordamos pivot o kill.
Contrato sano: cláusula de no-entrenamiento, retención/depuración, y portabilidad desde el día 1.
Rituales de gobierno: comité mensual de IA con poder de stop, auditorías “en frío”, y post-mortems obligatorios.

Si te sirve, agendamos workshop inicial (2 horas) + sesión de evaluación de proveedores (45’ por vendor) esta semana y ya disparamos el Plan 0–90. ¿Cuándo te queda cómodo?

La única IA que vale es la que pasa auditoría y le sonríe el CFO: evidencia hoy, portabilidad siempre y P&L todos los meses.

Gracias por acompañarme

DIEGO SAN ESTEBAN

@dsaneste_ok

No pierdas nuestros artículos

Suscríbete al canal y mantente actualizado de los articulos, eventos, y sobre todo de los webinars y conversatorios que organizo junto a prestigiosos colegas

La consultoría de IA que necesitas no vende humo: vende accountability

“En 2025 vender IA es fácil. Ejecutarla sin incendiar compliance, datos y P&L, no.”

1) Lo que de verdad te puede romper el negocio

a) Seguridad en LLM (inyección indirecta, jailbreak, supply chain)

b) Cumplimiento regulatorio en endurecimiento

c) Gobernanza deficitaria (AIMS + gestión de riesgo)

d) Economía opaca y lock-in

e) Datos sin higiene

cómo detectar a tiempo a los que te traen estos problemas

2) Banderas rojas para detectar IA-washing

a) “Casos” que son POCs sin usuarios ni KPIs de negocio

b) Ausencia de métricas de error (alucinación, sesgo, toxicidad) y sin red-teaming

c) Propuestas que ignoran AI Act / ISO 42001 / NIST AI RMF

d) Contratos sin no-entrenamiento con tus datos ni política de retención/depuración

e) Arquitecturas sin portabilidad (prompts, vectores, datasets) ni plan de salida

f) Sin SLA/SLO de modelos, ni monitoreo de drift y costo por decisión

f) “Senior” que no muestra design docs, post-mortems ni referencias en tu vertical

Prueba de escritorio en 30 minutos (mata el humo)

Mini-score de corte (rápido y objetivo)

1) Dimensiones que puntuás (7 ítems, 0–2 puntos cada uno)

2) Escala de puntuación (idéntica para las 7)

3) Artefactos mínimos por dimensión (qué pedir en la call)

4) Cálculo y decisión (en frío, sin romanticismo)

5) Guion de la call (30–45’)

6) Ejemplo rápido (para calibrar el ojo)

7) Variantes (si sos banco/aseguradora)

8) Cierre práctico

3) Nueve decisiones del Board que no se delegan

Apetito de riesgo y umbrales de autonomía

Priorización por P&L (y criterio de “no”)

Arquitectura target y portabilidad (plan de salida)

Gobernanza: AIMS operativo y RACI con poder de “stop”

Seguridad LLM (OWASP) y red-teaming continuo

Cumplimiento y evidencia reproducible

Economía: guardrails y coste por decisión

Personas y operating model

Ética, reputación y transparencia

4) Scorecard para exigirle a cualquier consultora (100 pts)

Cómo puntuar (rúbrica general 0–5)

Dimensiones, pesos, evidencias y pruebas en vivo

1) Impacto de negocio (30)

2) Arquitectura & Portabilidad (15)

3) Seguridad (15)

4) Gobernanza (15)

5) Cumplimiento (10)

6) MLOps (10)

7) Economía (5)

Cómo decidir (con números y sin romanticismo)

Ejemplos de calibración

Cómo usarla en RFP y en la call técnica

5) Cuadro de mando de KPIs (lo que no debería faltar)

Impacto de negocio (North Star)

Calidad del modelo (impacta P&L)

Riesgo & Cumplimiento

Seguridad (LLM y datos)

Datos

MLOps & Operación

Economía & Costos

Experiencia & Adopción

Ética, Sesgo & Reputación

Delivery & Cambio

6) Plan de 90 días (de pilotos eternos a producción con control)

Día 0–30 | Diagnóstico + Arquitectura target

Día 31–60 | Dos casos en producción con guardrails

Día 61–90 | Escala + gobierno

RACI y rituales (desde el día 1)

Criterios de éxito (a 90 días)

7) ¿Cómo puedo ayudarte (y qué NO hago)?

Cómo trabajo

Lo que NO Hago

Lo que espero de vos

Share this !

Me gusta esto:

No pierdas nuestros artículos

Descubre más desde Humanizing Banking