2.2
Bloque 2 · Unidad 2.2 · Sesiones A–C

El tradeoff bias-varianza

¿Por qué un modelo más complejo no siempre es mejor — y cómo encontrar el punto donde complejidad y generalización se equilibran?

Sesión A — La descomposición del error

Aprender no es memorizar. Memorizar es atrapar el pasado con tanta fuerza que el futuro se vuelve incomprensible. Todo sistema que intenta predecir la realidad — sea una red neuronal profunda, un comité de expertos o una asamblea ciudadana — se enfrenta a una tragedia matemática insoslayable: su error nunca es cero, y proviene siempre de dos venenos estructurales que no pueden erradicarse simultáneamente: el sesgo (bias) y la varianza.

Bias: la tiranía de la opinión previa. Es el error sistemático de un modelo demasiado simple, demasiado arrogante o demasiado rígido para capturar la verdadera complejidad del mundo. Una línea recta ajustada a un universo de datos curvos siempre estará lejos de la realidad, sin importar cuántos millones de datos le suministres. Es la analogía del hombre que solo posee un martillo: todo problema le parece un clavo. Esto es underfitting.

Varianza: la fragilidad de la memoria. En el extremo opuesto habita la sensibilidad patológica del modelo a las peculiaridades exactas del dataset. Un polinomio de grado 20 ajustado a 25 puntos se contorsionará violentamente para tocar cada uno — pero si cambias un solo punto, la curva entera se deforma. Es un individuo que cambia su sistema de creencias con cada persona nueva que conoce, sin retener ninguna estructura profunda. Memoriza el ruido, pierde la señal. Esto es overfitting.

La tragedia: Error Total = Bias² + Varianza + Ruido Irreducible. Al aumentar la complejidad del modelo, el bias baja (captura geometrías más sutiles) pero la varianza sube (presta atención al ruido estocástico). Hay un punto óptimo donde el error total toca fondo. Encontrar ese valle es el propósito de la validación cruzada y la regularización (Lasso, Ridge): enseñarle al modelo a olvidar selectivamente.

El reflejo en la inteligencia colectiva: un grupo conformista, dominado por un líder autoritario, es un modelo de alto bias — todos piensan igual, ignoran los matices y cometen el mismo error sistemático. Un grupo sin coordinación es un modelo de alta varianza — opiniones dispersas y caóticas que no convergen. Las cuatro condiciones de Surowiecki (diversidad, independencia, descentralización, agregación) son la arquitectura sociológica diseñada para encontrar el punto óptimo del trade-off bias-varianza en la toma de decisiones grupales.

Sesión B — Práctica

Sesión B — Simulador de overfitting

Este simulador genera datos ruidosos de una función real (curva azul punteada) y ajusta un polinomio cuyo grado tú controlas.

Instrucciones: Mueve el slider de "grado" de 1 a 15. Observa cómo cambia la curva roja (modelo) y los errores de training (verde) y test (naranja). Haz clic en "Nuevo dataset" para ver cómo cambia el modelo con datos diferentes — eso es varianza.

Qué observar: Con grado 1 (línea recta), el modelo ignora la curvatura real — alto bias, pero estable entre datasets. Con grado 10+, el modelo serpentea para pasar por cada punto — bajo bias en training, pero error de test explota. El punto óptimo suele estar alrededor de grado 3-5.

La "U" del test error es la firma visual del tradeoff bias-varianza. Training error siempre baja al aumentar complejidad. Test error baja, toca fondo, y luego sube. La diferencia entre ambos es la varianza.

Sesión C — Evaluación

Sesión C — Evaluación de dominio

Dominaste este concepto si puedes explicar la descomposición bias-varianza, identificar underfitting y overfitting visualmente, y justificar por qué cross-validation es necesario.

Quiz de evaluación

Responde correctamente 3 de 4 preguntas (75% mínimo).

Checklist de dominio