6.5
Unidad 6.5 · Semanas 57–58

De la predicción a la experimentación

Por qué los expertos fallan en sistemas complejos. Safe-to-fail probes, validated learning, y la diferencia entre forecasting (que falla) y tinkering (que adapta).

Sesión A — Por qué fallan las predicciones en sistemas complejos

Philip Tetlock, investigador de predicción política en Wharton, pasó 20 años (1984-2004) siguiendo las predicciones de expertos en geopolítica, economía, y seguridad. Su conclusión fue brutal: los expertos no predicen mejor que un simple promedio histórico. De hecho, los "muy confiados" predicen peor que los que dudan.

¿Por qué? Porque el mundo es complejo y contingente. Un evento depende de miles de variables interconectadas. Predecir en sistemas complejos asume que el futuro es "extrapolación" del pasado. Pero los sistemas complejos tienen tipping points, emergencias, sorpresas que no están en los datos históricos.

Dave Snowden, investigador de complejidad, propone una alternativa: en lugar de intentar predecir el futuro (imposible en sistemas complejos), diseña "safe-to-fail probes"—pequeños experimentos que son seguros si fallan. Los probes te permiten "sentir" el terreno sin arriesgar todo. Es como navegar en la niebla: no adivines dónde está la costa, tira sondas (probes) para descubrirla.

Eric Ries formalizó esto en "Lean Startup" (2011): en lugar de un plan detallado ("build, measure, kill"), iterás: build (MVP)→ measure (data) → learn (insight) → adjust → iterate. Cada ciclo te acerca a product-market fit. Es experimentación, no predicción.

Sesión B — Práctica

Sesión B — Práctica: Portfolio de probes vs. apuesta única

Enfrentes un problema organizacional complejo (ej: cómo mejorar retención de empleados, cómo entrar a nuevo mercado, cómo reducir costos operacionales). Tienes presupuesto limitado. ¿Hace toda una apuesta en una solución ("big bet") o diseñas múltiples pequeños experimentos ("probe portfolio")?

La simulación a tu derecha compara dos estrategias: (1) Big bet: predices la mejor solución, inviertes todo el presupuesto, esperas 6 meses, ves si funciona. (2) Probe portfolio: diseñas 4 pequeños experimentos, pruebas simultáneamente, aprendes de fallos rápidamente, escalas lo que funciona.

El resultado: en mundos predecibles (baja incertidumbre), el big bet gana. En mundos complejos (alta incertidumbre), el probe portfolio domina. ¿Por qué? Porque los probes fallan rápido y barato, te permiten aprender, y escalas lo que funciona. El big bet apuesta todo a una predicción.

Sesión C — Evaluación

Sesión C — Evaluación de dominio

Dominaste este concepto si:

Quiz de evaluación

Responde correctamente 3 de 4 preguntas (75% mínimo).

Contexto histórico

De Tetlock a Superforecasters: la historia de la predicción y la incertidumbre

Philip Tetlock es politólogo en Wharton que comenzó un estudio monumental en 1984. Reclutó expertos en relaciones internacionales, economía, y política. Durante 20 años, les pidió que hicieran predicciones sobre: ¿Caerá la Unión Soviética? ¿Habrá guerra en el Medio Oriente? ¿Aumentará el precio del petróleo?

En 2005, publicó sus resultados en "Expert Political Judgment: How Good Is It? How Can We Know?" El hallazgo fue impactante: los expertos no predicen mejor que un modelo aleatorio. De hecho, los expertos "muy famosos" (acostumbrados a aparecer en TV, con opiniones fuertes) predicen peor que los que dudan. Los mejores predictores son los que: (1) usan estadísticas, (2) dudan constantemente, (3) actualizan sus creencias cuando hay nueva evidencia.

Tetlock propuso que hay dos tipos de pensadores: "hedgehogs" (que tienen una gran idea y la aplican a todo) y "foxes" (que saben muchas cosas pequeñas). Los foxes predicen mejor. Un ejemplo clásico: un hedgehog dice "la geopolítica es sobre poder" (un principio), un fox dice "depende del contexto, del actor, de los incentivos" (múltiples factores).

Este trabajo llevó a la IARPA Good Judgment Project (2011-2015). IARPA (Intelligence Advanced Research Projects Activity, agencia del gobierno estadounidense) quería mejorar predicciones de inteligencia. Tetlock y equipo identificaron a personas que predecían excepcionalmente bien—"superforecasters." ¿Qué tenían en común?

Tetlock escribió "Superforecasting: The Art and Science of Prediction" (2015) compartiendo métodos de superforecasters. El libro mostró que la predicción es una habilidad que se puede entrenar, no un talento innato.

Mientras Tetlock estudiaba predicción, Dave Snowden (Cognito Enterprises) estaba trabajando en cómo manejar sistemas complejos. En 2000, desarrolló el Cynefin Framework, que clasifica problemas en dominios: simple (causa-efecto clara), complicado (causa-efecto existe pero requiere análisis experto), complejo (causalidad retrospectiva: solo entiendes qué pasó después), caótico (sin causalidad aparente).

Para sistemas complejos, Snowden propone "safe-to-fail probes" (2003 en adelante): en lugar de analizar exhaustivamente (imposible si la causalidad es retrospectiva), lanzas pequeños experimentos "seguros si fallan." El probe puede fallar sin causar daño sistémico. Luego observas qué pasa, aprendes, y ajustas. Es como navegar con radar en la niebla: no predices dónde está la costa, mandas señales (probes) para detectarla.

Ejemplos de safe-to-fail probes: una startup lanza MVP (minimum viable product) a 100 usuarios, no 1 millón. Una organización prueba un cambio de política en una sucursal, no toda la compañía. Un gobierno pilota un programa social en una provincia antes de escalar.

Eric Ries popularizó esta metodología en "The Lean Startup" (2011). Ries fue emprendedor que casi quiebra su startup porque estaban construyendo según un plan. Luego aprendió sobre "validated learning": en lugar de seguir un plan (predicción), itera rápidamente build → measure → learn → adjust. Cada ciclo de iteración es un "probe." Los datos de usuarios te dicen qué cambiar. Ries acuñó el término "pivot": cuando los datos te dicen que tu suposición era equivocada, cambias dirección radicalmente, pero barato.

El Lean Startup fue revolucionario porque mostró que en sistemas complejos (startup ecosystem, consumer behavior), la predicción no funciona. La experimentación iterativa sí. Hoy, Lean Startup es estándar en emprendimiento, innovación, y transformación organizacional.

Post-2015: Compañías como Spotify, Netflix, Amazon formalizaron la experimentación como core competency. Amazon tiene un concepto: "two-way door decisions" vs. "one-way door." En one-way (irreversibles), análisis detallado. En two-way (reversibles), experimento rápido. La mayoría de decisiones son two-way.

En 2023-2025, con la emergencia de IA, el debate volvió: ¿predicción (los modelos de IA predicen basándose en patrones históricos) o experimentación (los equipos de IA corren A/B tests para entender si una sugerencia ayuda)? La respuesta: ambas. El IA da hipótesis (predicciones), pero la validación requiere experimentos en el mundo real.

Teoría profunda

Clasificación de incertidumbre y diseño de experimentos

Tipos de incertidumbre (Frank Knight, 1921 + actualizaciones):

Cynefin Framework (Snowden 2000):

La mayoría de problemas empresariales y sociales son complejos o caóticos, no simple o complicado. Pero tratamos 90% con métodos de "simple" (best practices) o "complicado" (análisis experto). De ahí los fracasos.

Safe-to-fail vs. fail-safe:

Validated Learning (Lean Startup):

Cada iteración del ciclo build → measure → learn es un "test de hipótesis." Tienes:

Ries propone que "validated learning" es más valioso que "vanity metrics." Una vanity metric (ej: "100k descargas") se ve bien pero no te dice si el negocio es viable. Una métrica validada (ej: "25% de usuarios compran después de descargar") te dice si tienes product-market fit.

Exploration vs. Exploitation (Multi-armed Bandit):

Hay un trade-off clásico: ¿dedicas recursos a explorar cosas nuevas (probes) o explotar lo que ya funciona (scaling)? En estadística, esto es el "multi-armed bandit problem": tienes N máquinas tragaperras. Algunas tienen mejor payoff. ¿Cómo balanceas exploración (probar máquinas nuevas) con explotación (jugar la mejor máquina que encontraste)?

Estrategias:

En startups: durante fase inicial, ε es alto (exploras mucho). Conforme creces, ε baja (explotas lo que funciona). Si pierdes mercado, sube ε nuevamente (explora nuevas oportunidades).

Calibración de predicciones (Tetlock):

Un predictor está "calibrado" si cuando dice "80% probabilidad," el evento ocurre 80% de las veces. Mal calibrado si es siempre demasiado confiado (dice 80%, ocurre 50%) o demasiado conservador (dice 50%, ocurre 80%).

Métrica: Brier score = promedio de (predicción - outcome)². Brier bajo = bien calibrado.

Superforecasters entrenan calibración: hacen muchas predicciones, comparar con outcomes reales, ajustar meta-modelo. Aprenden: "cuando siento X evidencia, debo predecir Y% (no Z%)."

Cómo estudiar incertidumbre

Recursos para aprender predicción y experimentación

Fundamentos de Tetlock:

Lee "Expert Political Judgment" (Tetlock 2005), capítulos 1-3. Son técnicos pero accesibles. El capítulo 1 explica la metodología (cómo siguió a 284 expertos durante 20 años). Capítulo 2 muestra los resultados sorprendentes. Capítulo 3 explora por qué expertos fallan: sobreconfianza, confirmación de sesgos, etc.

Luego "Superforecasting" (Tetlock & Gardner 2015), capítulos 1-5. Aquí Tetlock y Gardner (co-autor) cuentan el Good Judgment Project. Aprenderás técnicas específicas: breaking big events into smaller ones (descomponer), frecuencias base ("cuando eventos similares ocurrieron antes"), actualización Bayesiana ("cómo debo cambiar mi creencia con nueva evidencia").

Dave Snowden y sistemas complejos:

No hay libro de Snowden accesible (la mayoría de su trabajo está en papers y conferencias). Mejor recurso: busca "Cynefin Framework" en YouTube. Snowden hace presentaciones claras (20-30 minutos) sobre los 5 dominios y cuándo aplicar safe-to-fail probes.

Paper accesible: Snowden (2002) "Complex Acts of Knowing" en Journal of Knowledge Management. Busca en Google Scholar. Lee sección "Cynefin, Knowledge, and Complexity" (páginas 2-4).

Eric Ries y Lean Startup:

"The Lean Startup" (2011) es muy accesible. Chapters 1-5 son los core. Ries da ejemplos de su startup IMVU, cómo casi quiebra siguiendo un plan perfectamente investigado, luego pivotó cuando datos de usuarios dijeron algo diferente.

Concepto clave: "validated learning." Ries propone que el éxito de startup no es seguir un plan sino aprender qué plan es correcto. Cada MVP es un "learning experiment."

Ejercicio: elige un producto que usas (app, sitio web, servicio). Propón una hipótesis: "si agregamos feature X, aumentará métrica Y." Luego diseña un MVP que testee esa hipótesis (sin meses de desarrollo, algo que puedas hacer en 1 semana). ¿Qué data necesitarías para validar/refutar? Ese es el Lean thinking.

Calibración de predicciones (Tetlock):

No puedes aprender calibración solo leyendo. Necesitas practicar. Sitios como Metaculus.com y PredictionBook.com te permiten hacer predicciones públicas, luego ver outcomes, luego tu Brier score. Es como un videojuego de predicción.

Dedica 2-3 semanas a hacer predicciones sobre eventos que sabes resolverán pronto (ej: "¿subirá el S&P 500 esta semana?"). Luego calibra: ¿cuándo dices 70%, qué pasa realmente? Ajusta tu meta-modelo.

Síntesis: Cuándo predecir vs. experimentar

Pregúntate: ¿estoy en dominio Simple/Complicado (causa-efecto clara) o Complejo (causalidad retrospectiva)?

La mayoría de decisiones organizacionales son Complejas (múltiples actores, múltiples incentivos, retroalimentación). Pero las tratamos como Complicadas (análisis exhaustivo, plan perfecto). De ahí fracasos. Cambio propuesto: trata Complejas como Complejas. Experimento rápido, itera, escala lo que funciona.

Ejercicio expandido

Tres desafíos: predecir vs. experimentar en tu contexto

Desafío 1: Identifica un "failed prediction" en tu organización (Fácil → Intermedio)

Piensa en un proyecto donde alguien (jefe, equipo) hizo una predicción ("si hacemos X, pasará Y") y falló. Ej: "si rediseñamos el site, conversión subirá 20%." Resultado: subió 2%.

Analiza usando Tetlock:

Conclusión: ¿fue un error de predicción (mala estimación de probabilidades) o un evento realmente impredecible (complejidad, black swan)?

Desafío 2: Rediseña como "validated learning" (Intermedio → Avanzado)

Ahora toma el proyecto fallido y rediseña using Lean Startup thinking. Supón que el equipo hubiera usado "safe-to-fail probes" en lugar de predicción:

Escribe 2-3 párrafos comparando: tiempo para aprender (MVP 2 semanas vs. predicción 6 meses), costo (MVP bajo vs. predicción alto), flexibilidad (MVP te permite pivotear vs. predicción te compromete a un plan).

Desafío 3: Diseña "superforecasting" para tu dominio (Avanzado)

Si te especializa en un área (mercados financieros, política, salud, tecnología), diseña tu propio "prediction system" usando técnicas de Tetlock:

Escribe tu "prediction model" en 1-2 páginas. No es la predicción en sí, sino el proceso de llegar a ella. Eso es lo que Tetlock valida.

Síntesis: La predicción falla porque asume causalidad lineal en sistemas complejos. La experimentación funciona porque itera y aprende. Los mejores organizadores (Amazon, Netflix, Spotify) usan ambas: modelos predictivos como "hipótesis" (IA sugiere), pero validan con experimentos (A/B tests en usuarios reales). Predicción + Experimentación = Inteligencia en Complejidad.