2.4
Bloque 2 · Unidad 2.4 · Sesiones A–C

Redes neuronales

¿Cómo aprende una red de nodos simples a resolver problemas que ningún nodo individual podría — y por qué eso se parece a la inteligencia colectiva?

Sesión A — Anatomía de una red neuronal

Aislar una neurona artificial es enfrentarse a una decepción matemática. No hay magia en ella, ni atisbo de cognición. Es un peón calculador: toma señales de entrada, las multiplica por pesos que indican su importancia, suma un sesgo, y obtiene un valor crudo. Si se detuviera ahí, una red neuronal sería idéntica a una regresión lineal plana. El salto al vacío ocurre en el siguiente paso: la función de activación — ReLU, Sigmoid, Tanh — inyecta no-linealidad al sistema. Sin esta torsión, mil capas colapsarían matemáticamente en una sola. Con ella, la red adquiere la capacidad de plegar y arrugar el espacio de los datos. La inteligencia profunda no reside en el nodo individual, sino en la abrumadora complejidad de su composición.

Las neuronas se organizan en castas estructuradas: una capa de entrada (los datos crudos), capas ocultas (donde ocurre la alquimia), y una capa de salida (la predicción final). Cada capa transforma la representación de la capa anterior, extrayendo patrones progresivamente más abstractos. Un píxel se vuelve un borde; un borde, un ojo; un ojo, un rostro. El Teorema de Aproximación Universal (Cybenko, 1989) establece una garantía asombrosa: una red con apenas una sola capa oculta suficientemente ancha puede aproximar cualquier función continua del universo. Pero en la práctica usamos redes profundas — decenas o cientos de capas estrechas — porque son infinitamente más eficientes para aprender la estructura jerárquica de la realidad.

¿Cómo aprenden millones de pesos simultáneamente? Mediante el gradient descent de la Unidad 2.1, guiado por Backpropagation. El proceso es una coreografía inversa: la red hace una predicción ciega; se mide la catástrofe del error en la salida (Loss); luego, usando la regla de la cadena del cálculo diferencial, ese error se propaga hacia atrás, capa por capa. El algoritmo le susurra a cada peso exactamente en qué dirección y con qué magnitud debe cambiar para reducir el error general en el próximo intento. Es el mecanismo algorítmico definitivo para asignar responsabilidad colectiva en un fracaso.

Conexión con Bloque 1: Una red neuronal es la encarnación matemática de la sabiduría de las multitudes. Una neurona es una unidad miope, capaz solo de trazar una frontera patética en un espacio diminuto. Pero al igual que una asamblea humana bien estructurada, la red compone los juicios simples de sus nodos. Las condiciones de Surowiecki operan literalmente: la diversidad de pesos genera especialización; la arquitectura en capas es descentralización; la loss function es el mecanismo de agregación; y la regularización (dropout) mantiene la independencia entre neuronas. El poder emerge de la topología de las conexiones y de la inmensa diversidad de las opiniones de sus pesos. Es, en su forma más pura, inteligencia colectiva computacional.

Sesión B — Práctica

Sesión B — Entrenamiento en vivo

Esta red neuronal aprende a clasificar puntos en 2D. Tiene 2 neuronas de entrada (coordenadas x, y), una capa oculta configurable, y 1 neurona de salida (clase +1 o -1).

Instrucciones: Elige un dataset (XOR es el clásico — no separable linealmente). Haz clic en "Entrenar" para que la red ejecute epochs de gradient descent. Los pesos de las conexiones cambian de color según su magnitud: verde = positivo fuerte, rojo = negativo fuerte, gris = cercano a cero. La cuadrícula de fondo muestra la frontera de decisión aprendida.

Qué observar: Con 0 neuronas ocultas, la red es una regresión logística — solo puede trazar fronteras lineales (y fallará en XOR). Con 4+ neuronas ocultas, puede aprender la frontera curva. Observa cómo la loss baja con cada epoch y cómo la frontera se refina progresivamente.

Experimenta: Cambia la tasa de aprendizaje. Si es muy alta, la red oscila y no converge. Si es muy baja, converge lentamente. Prueba con más o menos neuronas ocultas: ¿cuántas necesitas para XOR? ¿Qué pasa con demasiadas en datos simples (overfitting)?

Sesión C — Evaluación

Sesión C — Evaluación de dominio

Dominaste este concepto si puedes explicar cómo una red neuronal transforma datos a través de capas, por qué las funciones de activación son necesarias, y cómo backpropagation calcula los gradientes.

Quiz de evaluación

Responde correctamente 3 de 4 preguntas (75% mínimo).

Checklist de dominio