D4: Arquitectura de Variables y D5: Supuestos Inductivos

Dimensión 4: Arquitectura de Variables

Las variables no son islas. O sí lo son — y esa es una decisión.

Pregunta clave: “¿Las variables solo se usan como inputs, o tienen una relación estructural específica entre ellas?”

Terminología de grafos

Término	Significado	Visualización
DAG	Directed Acyclic Graph (grafo dirigido sin ciclos)	A → B → C (flechas, no puedes volver al inicio)
MRF	Markov Random Field (grafo no dirigido)	A — B — C (conexiones sin dirección)
PGM	Probabilistic Graphical Model (término general)	Incluye DAGs (Bayesian Networks) y MRFs

flowchart LR
    subgraph DAG ["DAG (Bayesian Network)"]
        direction TB
        A1["A"] --> B1["B"]
        A1 --> C1["C"]
        B1 --> D1["D"]
        C1 --> D1
    end
    subgraph MRF ["MRF (Markov Random Field)"]
        direction TB
        A2["A"] --- B2["B"]
        A2 --- C2["C"]
        B2 --- D2["D"]
        C2 --- D2
    end

Las 5 arquitecturas

Arquitectura	Estructura	Supuesto implícito	Mejor para	Situación real
Flat/Discriminativa	$[X, Z] \to Y$	Variables son intercambiables como inputs	Alta precisión con muchos datos	Clasificación de spam: todas las features son inputs equivalentes
Generativa	Modelo de $P(X,Z)$ junto con Y	El mundo tiene estructura que podemos simular	Datos faltantes, generación	Generar rostros: necesitas entender cómo se distribuyen los pixels
Latente	X,Z son vistas ruidosas de $L$ oculto	La realidad es más simple que las observaciones	Ruido, fusión de sensores	GPS + acelerómetro: ambos miden posición real con ruido diferente
Grafos/PGM	DAG o MRF de dependencias	Independencias condicionales explícitas	Interpretabilidad, conocimiento experto	Diagnóstico médico: síntomas dependen de enfermedad, no entre sí
Causal	DAG con dirección causal	Mecanismos son estables bajo intervención	Decisiones, robustez OOD	Política pública: ¿subir impuestos CAUSA menos consumo?

Discriminativo vs Generativo — La distinción clave

Enfoque	Qué modela	Pregunta que responde	¿Puede generar datos nuevos?
Discriminativo	$P(Y \mid X)$	“Dado este input X, ¿cuál es Y?”	No directamente
Generativo	$P(X)$ o $P(X,Y)$	“¿Cómo se ven los datos?”	Sí, muestreando de $P(X)$

Discriminativo (ej: Logistic Regression, SVM): Aprende la frontera de decisión entre gatos y perros. No sabe “cómo se ve un gato”, solo sabe distinguirlos.
Generativo (ej: Naive Bayes, Gaussian Mixture): Aprende $P(X \mid \text{gato})$ y $P(X \mid \text{perro})$ — cómo se ven los gatos, cómo se ven los perros. Puede generar imágenes nuevas Y clasificar usando Bayes.

flowchart LR
    subgraph DISC ["DISCRIMINATIVO"]
        X1["X"] --> F1["f(θ)"] --> PY1["P(Y|X) → Ŷ"]
    end
    subgraph GEN ["GENERATIVO"]
        PXY["Aprende P(X|Y) para cada Y"] --> BAYES["Clasifica via Bayes: P(Y|X) ∝ P(X|Y)P(Y)"]
        PXY --> GENERA["Genera muestreando de P(X|Y=clase)"]
    end

Discriminativo vs Generativo

Dos significados de “Generativo”

El término “generativo” se usa en ML con dos significados que a veces se confunden:

Significado	Definición	Ejemplo
Arquitectura generativa (clásico)	Modelar $P(X)$ o $P(X,Y)$ en lugar de solo $P(Y \mid X)$	Naive Bayes, Gaussian Mixture, VAE
IA Generativa (moderno)	Cualquier modelo capaz de generar contenido nuevo	GPT, Stable Diffusion, DALL-E

¿Por qué la confusión? Un LLM como GPT modela P(Xₜ₊₁|X₁:ₜ), que técnicamente es condicional (discriminativo en cierto sentido). Pero al encadenar estas predicciones, genera secuencias completas de texto — por eso lo llamamos “generativo” en el sentido de capacidad.

P(X₂|X₁) × P(X₃|X₁,X₂) × P(X₄|X₁,X₂,X₃) × ... = P(X₁,X₂,X₃,X₄,...)
────────────────────────────────────────────────────────────────────
Predicciones condicionales encadenadas = Distribución conjunta P(X)

En resumen: GPT es generativo en capacidad (genera texto) aunque su objetivo inmediato sea condicional.

Visualización de arquitecturas

Nota: θ (theta) representa los parámetros del modelo — los números que se aprenden/ajustan durante el entrenamiento (pesos, coeficientes, etc.)

flowchart LR
    subgraph FLAT ["FLAT"]
        direction LR
        XF["X₁, X₂, Z₁, Z₂"] --> FF["f(·;θ)"] --> YF["Y"]
    end

flowchart TD
    subgraph GEN_LABEL ["GENERATIVA (con etiquetas)"]
        direction TB
        TH["θ"] --> PXY_G["P(X|Y;θ)"]
        PXY_G --> CLAS["Clasificar: P(Y|X) ∝ P(X|Y)P(Y)"]
        PXY_G --> SAMP["Generar: X ~ P(X|Y=clase)"]
    end

flowchart LR
    subgraph GEN_NOLABEL ["GENERATIVA (sin etiquetas: VAE, GAN)"]
        direction LR
        L_G["L ~ P(L) (latente)"] --> DEC["Decoder: P(X|L;θ)"] --> XG["X generado"]
    end

flowchart TD
    subgraph LATENTE ["LATENTE"]
        direction TB
        LL["L (oculto)"]
        LL --> XL["X (vista ruidosa 1)"]
        LL --> ZL["Z (vista ruidosa 2)"]
        LL --> YL["Y"]
    end

flowchart TD
    subgraph PGM_EXAMPLES ["PGM"]
        direction TB
        subgraph MARKOV ["Cadena de Markov"]
            direction LR
            Xt["X_t"] --> Xt1["X_{t+1}"] --> Xt2["X_{t+2}"]
        end
        subgraph HMM ["Hidden Markov Model"]
            direction LR
            Lt["L_t"] --> Lt1["L_{t+1}"] --> Lt2["L_{t+2}"]
            Lt --> Yt["Y_t"]
            Lt1 --> Yt1["Y_{t+1}"]
            Lt2 --> Yt2["Y_{t+2}"]
        end
    end

flowchart TD
    subgraph CAUSAL ["CAUSAL"]
        direction TB
        Z_C["Z (confounder)"]
        X_C["X"]
        Y_C["Y"]
        Z_C --> X_C
        Z_C --> Y_C
        X_C -->|"do()"| Y_C
    end

¿Qué arquitectura elegir?

Situación	Arquitectura recomendada
Features intercambiables, sin estructura especial	Flat
Quieres generar datos nuevos	Generativa
Datos ruidosos de múltiples fuentes	Latente
Conoces dependencias entre variables	PGM/Grafo
Necesitas efectos causales	Causal
Datos secuenciales/temporales	PGM temporal (Markov, HMM)
Imágenes, texto, señales	Latente + arquitectura especializada

Estas son heurísticas, no reglas. La elección óptima en esta dimensión depende de las otras cuatro — entender el sistema completo es más importante que optimizar cada eje por separado.

Dimensión 5: Supuesto Inductivo y Estructural

Todo modelo hace supuestos sobre cómo funciona el mundo — sin ellos, generalizar sería imposible.

Este eje captura qué creencias estructurales incorpora el modelo. En la literatura se conoce como:

Sesgo inductivo (inductive bias) — término técnico en ML: es el conjunto de supuestos o creencias previas que un sistema —ya sea una persona o un modelo de aprendizaje automático— utiliza para generalizar a partir de datos limitados.Es la “idea previa” que guía cómo interpretamos la información cuando no tenemos todos los datos.
Prior — término bayesiano para creencias previas
Restricción — porque limita el espacio de hipótesis

Usamos “supuesto” porque enfatiza que es una decisión filosófica sobre la naturaleza del problema, no solo una técnica de regularización.

Miguel Ángel decía que la escultura ya existía dentro del mármol — él solo quitaba lo que sobraba. La predicción funciona igual: el espacio de modelos posibles es infinito, y tus supuestos determinan cuáles consideras plausibles.

Cada tipo de supuesto es un cincel diferente:

La arquitectura asume ciertas invarianzas (espaciales, temporales)
La regularización asume que funciones simples son más probables
Los priors expresan creencias explícitas sobre parámetros
La validación asume que el futuro se parecerá al pasado

Pregunta clave: “Dado que tengo datos finitos, ¿qué supuesto estructural uso para elegir entre los infinitos modelos que ajustan los datos?”

Supuesto	Qué asume	Ejemplo	Situación real
Arquitectura	Limita qué funciones son representables	CNN (invarianza traslacional), Transformer (atención)	Reconocimiento de objetos: un gato es gato esté arriba o abajo de la imagen
Penalización	Castiga complejidad en la función de pérdida	L2 = funciones suaves, L1 = funciones sparse	Regresión con muchas variables: L1 fuerza a usar solo las importantes
Prior probabilístico	Distribución explícita sobre parámetros	Prior Gaussiano en pesos, GP kernel	Pocos datos: “creo que los parámetros están cerca de cero”
Independencia condicional	Asume que ciertas variables son independientes dadas otras	Propiedad de Markov, Naive Bayes, PGMs	Markov: el pasado lejano no importa dado el presente
Calibración/Momentos	Match de momentos/estadísticas observadas	SMM, GMM (Momentos Generalizados), calibración económica	DSGE: ajustar para que el modelo reproduzca volatilidad del PIB observada
Validación cruzada	Selección por performance en held-out	CV, train/val/test split	Elegir hiperparámetros: probar en datos que el modelo no vio
Invarianza causal	Solo usar relaciones estables bajo cambio de distribución	IRM, Causal regularization	Modelo médico que funcione igual en hospitales diferentes

Equivalencia Bayesiana

Insight fundamental: Todo supuesto inductivo es matemáticamente equivalente a algún tipo de “prior” o creencia sobre qué funciones son más plausibles.

Supuesto	Equivalencia Bayesiana
L2 regularization	Prior Gaussiano sobre pesos
L1 regularization	Prior Laplaciano sobre pesos
Dropout	Prior sobre redes sparse
CNN architecture	Prior de invarianza traslacional
Propiedad de Markov	Prior de independencia condicional temporal
Validación cruzada	Prior implícito de generalización

Regularización L1 vs L2

¿Qué supuesto elegir?

Situación	Supuesto recomendado
Invarianza espacial conocida (imágenes)	Arquitectura (CNN)
Invarianza secuencial (texto, tiempo)	Arquitectura (Transformer, RNN)
Muchas features, pocas relevantes	Penalización L1 (sparsity)
Quieres funciones suaves	Penalización L2
Conocimiento previo sobre parámetros	Prior probabilístico
Datos temporales	Propiedad de Markov
Modelo teórico con parámetros libres	Calibración/Momentos
No sabes qué supuesto usar	Validación cruzada
Modelo debe funcionar en múltiples contextos	Invarianza causal

Estas son heurísticas, no reglas. La elección óptima en esta dimensión depende de las otras cuatro — entender el sistema completo es más importante que optimizar cada eje por separado.

El Rol de Z vs L (Variables Auxiliares y Latentes)

Distinción fundamental:

Z (observable): Información adicional que tienes en tus datos
L (latente): Representación oculta que infiere el modelo

flowchart TD
    subgraph OBSERVABLE ["OBSERVABLE"]
        direction LR
        XO["X"] --- YO["Y"]
        XO --- ZO["Z"]
    end
    subgraph LATENTE_ZL ["LATENTE"]
        direction LR
        XL["X"] --> LL["L"] --> XL2["X̂"]
    end

Roles de Z (variable auxiliar observable)

Rol de Z	Descripción	Cómo se usa	Ejemplo
Feature adicional	Información extra para predecir Y	Concatenar con X: $P(Y \mid X,Z)$	Predecir ventas: X=historial, Z=clima
Proxy ruidoso de X	Z mide lo mismo que X con error	Modelos de error de medición	Encuestas: respuesta observada Z vs opinión real X
Vista alternativa	X y Z son perspectivas del mismo objeto	Contrastive learning: $\phi(X) \approx \phi(Z)$	Imagen y su descripción textual (CLIP)
Confounder	Variable que afecta tanto X como Y	Controlar/bloquear en análisis causal	Educación afecta tanto ingreso como salud
Instrumento	Variable que afecta Y solo a través de X	IV regression	Distancia a universidad como instrumento para educación
Variable de agrupación	Define subpoblaciones	Cobertura condicional en Conformal	Garantizar precisión por género/edad

Roles de L (variable latente)

Rol de L	Descripción	Cómo se usa	Ejemplo
Representación comprimida	Embedding de dimensión menor	$\phi(X) \to L$ donde dim(L) < dim(X)	Autoencoder, PCA
Estado oculto	Variable no medida que genera observaciones	$P(X \mid L)$ donde L causa X	HMM: L=estado del sistema, X=mediciones
Factor latente	Causa común de múltiples observaciones	X, Z son vistas ruidosas de L	Factor Analysis: L=inteligencia, X,Z=tests
Espacio generativo	De donde se muestrean nuevos datos	$P(L)$ y $P(X \mid L)$	VAE: L~N(0,I), luego decodificar a imagen

Anterior: Incertidumbre y objetivo (D2 + D3) | Siguiente: Atlas de métodos →