Unidad 5.3 — Evaluación e iteración

Sesión A — Medir lo que importa en sistemas complejos

La medición en sistemas complejos es paradójica: cuanto más importantes son los aspectos que quieres medir (confianza, equidad, estabilidad emergente), más difíciles son de cuantificar. Y cuanto más fáciles de medir (clicks, recomendaciones aceptadas), menos importancia tienen realmente.

La Ley de Goodhart (1975) reza: "Cuando una medida se convierte en un objetivo, deja de ser una buena medida." Ejemplo: si optimizas una recomendador por "tasa de clicks", el sistema aprenderá a generar contenido sensacionalista. Hiciste click, pero te arrepentiste. Goodhart ocurre en sistemas complejos porque el acto de optimizar una métrica cambia el comportamiento del sistema.

Cinco categorías de métricas en sistemas híbridos:

1. Output metrics: Lo que el sistema produce directamente. Ej: precisión, recall, latencia. Son fáciles de medir pero pueden engañar. Optimizar solo output sin ver impacto global es peligroso.

2. System health indicators: Cómo está el sistema en su conjunto. Ej: tasa de override humano (si sube, la IA está fallando o perdiendo confianza), variedad de decisiones (si cae, el sistema está colapsando a un único patrón), feedback delay (si sube, el loop se vuelve inestable).

3. Emergence detection: Propiedades que emergen del acoplamiento humano-IA. Ej: usuarios se polarizan (el recomendador amplificó sus sesgos), aparece un arbitraje imprevisto (alguien explota una brecha sistema), surge liderazgo emergente (una facción domina las decisiones).

4. Feedback loop integrity: ¿El feedback que retorna es válido? Ej: usuarios que dan feedback negativo falso (para manipular el sistema), ruido ambiental que corrompe medidas.

5. Human satisfaction & autonomy: Cómo se sienten los humanos operando el sistema. Ej: cognitive load, sense of agency (¿sienten que tienen control?), trust trajectory (¿va creciendo o decayendo?).

Sesión B — Ciclo de evaluación iterativa

Practica un ciclo PDCA (Plan-Do-Check-Act) en un sistema híbrido simulado. Tienes 5 rondas. Cada ronda: elige qué medir, propón una intervención, observa cómo el sistema responde (incluyendo consecuencias imprevistas), y aprende.

Instrucciones: Abajo verás un dashboard con múltiples métricas (Accuracy, Fairness, Human Satisfaction, System Stability, Adaptation Rate). Tu objetivo es mejorar el sistema sin que se degrade ninguna métrica crítica.

Cada ronda tienes 3 acciones disponibles:

"Aumentar automatización": Reduce intervención humana. Accuracy sube, Human Satisfaction baja.
"Mejorar transparencia": Explica más decisiones. Fairness sube, Accuracy baja ligeramente (más overhead).
"Reentrenar modelo": Usa nuevos datos. Puede mejorar Accuracy pero destabilizar si hay feedback malo.
Autores

Trampa: Cada intervención tiene una consecuencia secundaria que aparece 1-2 rondas después. Ej: aumentar automatización baja Human Satisfaction, que lleva a override humano más frecuente, que destabiliza el sistema. ¿Puedes predecir y evitar esto?

Victoria: Completar 5 rondas sin que ninguna métrica crítica caiga por debajo del 40%.

Sesión C — Evaluación de dominio

Dominaste este concepto si:

Quiz de evaluación

Responde correctamente 3 de 4 preguntas (75% mínimo).

Evaluación e iteración

Sesión A — Medir lo que importa en sistemas complejos

Sesión B — Ciclo de evaluación iterativa

Sesión C — Evaluación de dominio

Quiz de evaluación

Contexto histórico

Teoría profunda

Cómo estudiar este material

Ejercicio expandido