Unidad 2.3 — Clasificación y fronteras de decisión

Sesión A — El problema de clasificación

Distinguir el fraude de lo legítimo, el tejido sano del tumor, la noticia falsa de la verdadera, se reduce geométricamente a una misma operación: trazar una línea en el espacio. Clasificar es el arte de parcelar el universo de datos en regiones categóricas. Esa línea divisoria — la frontera de decisión — es una superficie que separa el espacio de features en territorios. Todo lo que cae de un lado se clasifica como A; del otro, como B. Y la forma de esa frontera es todo lo que distingue a un clasificador de otro.

La arquitectura del algoritmo dicta la geometría. Un clasificador rígido como la regresión logística solo puede trazar hiperplanos — líneas rectas que estiman la probabilidad de pertenencia a cada clase. Es estricto pero generaliza bien. Las Support Vector Machines (SVM) buscan el hiperplano que maximiza el margen entre clases, y con un kernel no lineal pueden torcer, curvar y enroscar la frontera como una banda elástica para atrapar anomalías. Los K-Nearest Neighbors (KNN) ni siquiera aprenden frontera: clasifican cada punto según la mayoría de sus k vecinos, generando fronteras implícitas e irregulares. El tradeoff bias-varianza de la Unidad 2.2 reaparece aquí con fuerza: frontera demasiado simple ignora estructura real; demasiado compleja memoriza ruido.

El parámetro C en SVM es el regulador maestro de esta tensión. Administra el conflicto entre un "margen de seguridad" amplio y la tolerancia a errores de entrenamiento. Con C bajo, la frontera se vuelve tolerante y rectilínea — acepta equivocarse con puntos atípicos a cambio de un margen ancho y pacífico. Con C alto, el modelo se vuelve paranoico y perfeccionista: se retuerce agresivamente para no cometer un solo error, estrechando el margen hasta el colapso. Existe además un límite teórico de perfección — el Clasificador Bayesiano Óptimo, que asigna cada punto a la clase más probable usando la distribución condicional real P(Y=k|X=x). La paradoja: es inalcanzable. Nadie posee el mapa probabilístico verdadero de la naturaleza. Todos los algoritmos de ML son aproximaciones que intentan adivinar la silueta de esa frontera bayesiana.

Conexión con Bloque 1: Los sistemas humanos de votación hacen exactamente esto. Cuando Condorcet calculaba las probabilidades de que un jurado estuviera en lo cierto, estaba realizando clasificación bayesiana empírica. La regla de mayoría de la democracia directa — "50% + 1" — no es más que la frontera de decisión lineal más primitiva posible, trazada a la mitad del espacio de opiniones para separar la decisión A de la B. El parámetro C tiene su equivalente en la inteligencia colectiva: demasiada libertad (C alto) genera overfitting al ruido local; demasiada restricción (C bajo) ignora señales legítimas de las minorías.

Sesión B — Práctica

Sesión B — Simulador de fronteras de decisión

Este simulador genera dos clases de puntos en 2D y traza la frontera de decisión de un clasificador SVM lineal. Tú controlas el parámetro C, que regula cuánto el modelo tolera errores de clasificación en los datos de entrenamiento.

Instrucciones: Mueve el slider de C. Con C bajo (0.01), el modelo prefiere un margen amplio aunque clasifique mal algunos puntos — es conservador, alta regularización. Con C alto (100), el modelo intenta clasificar correctamente cada punto del training set, generando fronteras más complejas y potencialmente sobreajustadas.

Qué observar: Fíjate en los vectores de soporte (puntos con borde grueso): son los puntos más cercanos a la frontera que la definen. Con C bajo, hay más vectores de soporte y la frontera es más suave. Con C alto, menos vectores definen una frontera más agresiva. Observa también la precisión de test (puntos semitransparentes): ¿coincide con la precisión de training? Si divergen mucho, estás viendo overfitting.

Prueba también: Cambia el "ruido" para ver qué pasa con datos más ruidosos. Cambia la "separación" para ver cómo la dificultad del problema afecta la frontera óptima. Usa "Kernel RBF" para ver fronteras no lineales — ahí el efecto de C es aún más dramático.

Sesión C — Evaluación

Sesión C — Evaluación de dominio

Dominaste este concepto si puedes explicar qué es una frontera de decisión, cómo el parámetro C controla el tradeoff bias-varianza en SVM, y por qué clasificadores diferentes generan fronteras diferentes.

Quiz de evaluación

Responde correctamente 3 de 4 preguntas (75% mínimo).

Sesión A — El problema de clasificación

Sesión B — Simulador de fronteras de decisión

Sesión C — Evaluación de dominio

Quiz de evaluación

Checklist de dominio