Sesión A — La loss function como definición de "aprender"
En el corazón de todo algoritmo no yace una inteligencia mística, sino un crudo problema de optimización. Aprender, matemáticamente hablando, es buscar a ciegas los parámetros exactos que minimizan nuestro margen de equivocación frente al mundo. Toda la majestuosidad de la inteligencia artificial moderna se reduce a dos verbos: definir qué significa equivocarse (la función de pérdida) y buscar febrilmente el fondo del abismo (la optimización).
La función de pérdida es el juez implacable del modelo. Cuantifica la discrepancia entre lo que predice y la terca realidad. Pero no todos los castigos son iguales: MSE (Error Cuadrático Medio) penaliza cuadráticamente — un error de 2 suma 4, un error de 10 suma 100 — obligando al modelo a aterrorizarse ante los outliers. MAE (Error Absoluto Medio) penaliza linealmente, produciendo modelos más estoicos frente al ruido extremo. Cross-Entropy, usada en clasificación, no solo castiga equivocarse, sino equivocarse estando muy confiado de tener la razón. La elección de loss function es el código moral matemático del sistema: define exactamente qué significa "equivocarse" y obliga al modelo a priorizar un tipo de conocimiento sobre otro.
Si la función de pérdida construye una geografía montañosa de nuestros errores, el gradient descent es la gravedad que nos empuja hacia el fondo del valle. Imagina estar vendado en una montaña: tu única forma de bajar es palpar el suelo con el pie y dar un paso en la dirección de la pendiente más pronunciada. El parámetro crítico es la tasa de aprendizaje (learning rate): si es microscópica, morirás de inanición en la ladera; si es gigantesca, saltarás el valle por completo, rebotando caóticamente de pared a pared hasta divergir hacia el infinito.
Pero la tragedia geométrica del Deep Learning es que la superficie de pérdida casi nunca es un cuenco liso y convexo. Es un terreno alienígena de millones de dimensiones infestado de trampas: mínimos locales (valles engañosos que no son el fondo absoluto), puntos de silla (zonas que parecen mínimo en una dimensión pero caen al abismo en otra) y mesetas (desiertos planos donde el gradiente es cero y el modelo se paraliza creyendo que ha terminado de aprender).
Conexión con Bloque 1: Al igual que Arrow demostró que no existe sistema de votación perfecto universal, en ML rige el No Free Lunch Theorem (Wolpert & Macready, 1997): no existe algoritmo de optimización que domine a todos los demás en todos los problemas. La arquitectura del algoritmo debe adaptarse a la estructura del problema — exactamente como la arquitectura de decisión colectiva debe adaptarse al contexto del grupo.
Sesión B — Simulador de Gradient Descent
Este simulador te permite ver gradient descent en acción sobre una superficie de error 2D. El punto rojo es tu modelo — empieza en una posición aleatoria y busca el mínimo.
Instrucciones: Ajusta el learning rate con el slider. Haz clic en "Paso" para avanzar una iteración, o "Ejecutar" para ver la animación completa. Observa qué pasa cuando el learning rate es muy alto (el punto rebota y diverge) vs. muy bajo (avanza imperceptiblemente).
Qué observar: Con learning rate ~0.05-0.1, el descenso es suave y converge al mínimo. Con ~0.5+, empieza a oscilar alrededor del mínimo sin alcanzarlo. Con ~1.0, diverge completamente. Con ~0.001, apenas se mueve. También experimenta con la función: la cuadrática tiene un solo mínimo (convexa), pero la "con mínimo local" tiene dos valles — el gradient descent puede quedar atrapado en el peor.
El punto conceptual: No existe learning rate "correcto" universal. Es un hiperparámetro que requiere experimentación. En la práctica, métodos como Adam ajustan el learning rate adaptativamente por parámetro.
Sesión C — Evaluación de dominio
Dominaste este concepto si puedes explicar qué es una loss function, por qué su elección importa, cómo funciona gradient descent, y qué papel juega el learning rate.
Quiz de evaluación
Responde correctamente 3 de 4 preguntas (75% mínimo).