Mapa Visual, Heurísticas y Casos de Estudio

Saber que existen cinco dimensiones es útil. El siguiente diagrama muestra cómo se relacionan las dimensiones entre sí — no es una guía de qué elegir, sino un mapa de las opciones disponibles.

Mapa Visual de la Taxonomía

Flujo de las 5 dimensiones

flowchart TD
    START(["PROBLEMA DE PREDICCIÓN"]) --> Q1

    Q1{"D1: FUENTE DE CONOCIMIENTO - ¿De dónde viene la estructura?"}

    Q1 -->|"Teoría completa (física, economía)"| D1_DED["DEDUCTIVO - Ecuaciones teóricas"]
    Q1 -->|"Teoría + datos (calibración)"| D1_HIB["HÍBRIDO - Estructura teórica, parámetros de datos"]
    Q1 -->|"Solo datos (ML clásico)"| D1_IND["INDUCTIVO - Todo se aprende"]

    D1_DED --> Q2
    D1_HIB --> Q2
    D1_IND --> Q2

    Q2{"D2: INTERPRETACIÓN PROBABILÍSTICA - ¿Cómo tratas la incertidumbre?"}

    Q2 -->|"Actualizar creencias con datos"| D2_BAY["BAYESIANO - P(θ|datos)"]
    Q2 -->|"Frecuencias límite"| D2_FRQ["FREQUENTIST - MLE, intervalos"]

    D2_BAY --> Q3
    D2_FRQ --> Q3

    Q3{"D3: OBJETIVO MATEMÁTICO - ¿Tienes variable objetivo Y?"}

    Q3 -->|"Sí, supervisado"| Q4
    Q3 -->|"No, unsupervised"| Q4B

    Q4{"¿Qué estadístico de Y necesitas?"}

    Q4 -->|"Media"| D3_EY["E[Y|X] - Predicción puntual"]
    Q4 -->|"Distribución"| D3_PY["P(Y|X) - Incertidumbre total"]
    Q4 -->|"Percentiles"| D3_Q["Qα[Y|X] - VaR e intervalos"]
    Q4 -->|"Intervención"| D3_DO["P(Y|do(X)) - Causalidad"]

    Q4B{"¿Qué quieres de X?"}

    Q4B -->|"Densidad"| D3_PX["P(X) - Anomalías y generación"]
    Q4B -->|"Compresión"| D3_PHI["ϕ(X) - Embeddings"]
    Q4B -->|"Clusters"| D3_C["P(C|X) - Segmentación"]

    D3_EY --> Q5
    D3_PY --> Q5
    D3_Q --> Q5
    D3_DO --> D4_CAUS["CAUSAL - DAG con do()"]
    D3_PX --> Q5B
    D3_PHI --> Q5B
    D3_C --> Q5B

    Q5{"D4: ARQUITECTURA - ¿Estructura entre variables?"}

    Q5 -->|"Features intercambiables"| D4_FLAT["FLAT - X → f(θ) → Y"]
    Q5 -->|"Dependencias explícitas"| D4_GRAF["PGM - DAG, MRF, HMM"]
    Q5 -->|"Variable oculta L"| D4_LAT["LATENTE - L → X, Y"]

    Q5B{"¿Estructura en datos?"}

    Q5B -->|"Ninguna especial"| D4B_FLAT["FLAT"]
    Q5B -->|"Manifold/Embedding"| D4B_LAT["LATENTE - P(X|L), VAE"]
    Q5B -->|"Mezcla de distribuciones"| D4B_GEN["GENERATIVA - P(X), Gaussian Mixture"]

    D4_FLAT --> Q6
    D4_GRAF --> Q6
    D4_LAT --> Q6
    D4_CAUS --> Q6
    D4B_FLAT --> Q6
    D4B_LAT --> Q6
    D4B_GEN --> Q6

    Q6{"D5: SUPUESTO INDUCTIVO - ¿Qué estructura asumes?"}

    Q6 -->|"Simetría/Invarianza"| D5_ARQ["ARQUITECTURA - CNN, Transformer"]
    Q6 -->|"Penalizar complejidad"| D5_PEN["REGULARIZACIÓN - L1, L2, Dropout"]
    Q6 -->|"Creencia previa"| D5_PRI["PRIOR - P(θ)"]
    Q6 -->|"Match de momentos"| D5_CAL["CALIBRACIÓN - E[g(X,θ)]=0"]
    Q6 -->|"Performance en holdout"| D5_CV["VALIDACIÓN - CV, train/test"]
    Q6 -->|"Independencia temporal"| D5_MRK["MARKOV - P(Xₜ₊₁|Xₜ)"]

Combinaciones comunes

Si tu situación es…	Considera…
Muchos datos, sin teoría previa	Inductivo + Frequentist + DNN
Pocos datos, conocimiento experto	Híbrido + Bayesian + PGM
Necesitas tomar decisiones/políticas	Cualquier D1 + Causal + Invarianza
Imágenes/texto/señales	Inductivo + Arquitectura especializada (CNN, Transformer)
Datos tabulares estructurados	Inductivo + Gradient Boosting
Cuantificar riesgo	Quantiles o Bayesian + $P(Y \mid X)$
Detectar anomalías	Inductivo + $P(X)$ + Density estimation
Generar datos sintéticos	Inductivo + $P(X)$ + VAE/GAN/Flow
Transfer learning	Self-supervised + Latente
Simulación con física conocida	Híbrido + Physics-Informed
Economía/macro	Deductivo + Calibración/Momentos

Heurísticas para Elegir

Advertencia: Lo que sigue son heurísticas, no reglas. Son puntos de partida para orientar la exploración, no respuestas definitivas. El contexto siempre manda.

Heurísticas por dimensión

Cada dimensión tiene preguntas que ayudan a elegir:

D1: Fuente de Conocimiento

Pregunta: ¿Tienes teoría validada del fenómeno?
Sí → Deductivo o Híbrido
No → Inductivo
¿Pocos datos? → Híbrido puede ayudar

D2: Interpretación de Probabilidad

Pregunta: ¿Necesitas incertidumbre sobre los parámetros?
Sí → Bayesiano
Solo predicción puntual → Frequentist suele bastar

D3: Objetivo Matemático

Pregunta: ¿Qué harás con la predicción?
Decisión binaria → $P(Y \mid X)$
Un número → $E[Y \mid X]$
Cuantificar riesgo → Quantiles
Intervenir/causar → $do(X)$

D4: Arquitectura de Variables

Pregunta: ¿Hay estructura conocida entre variables?
Sí, dependencias explícitas → PGM/Grafo
Datos de alta dimensión → Latente
Sin estructura especial → Flat

D5: Supuesto Inductivo

Pregunta: ¿Qué invariancias o estructura conoces del problema?
Invarianza espacial → CNN
Invarianza secuencial → Transformer/Markov
No sé → Regularización + Cross-validation

Reglas generales (aproximadas)

Algunas combinaciones que suelen funcionar:

Pocos datos + mucha teoría → Deductivo o Híbrido + Bayesiano + PGM
Muchos datos + poca teoría → Inductivo + Frequentist + DNN o Gradient Boosting
Necesitas explicar el modelo → PGM, modelos lineales, evitar cajas negras
Necesitas efectos causales → Arquitectura Causal (no hay atajo)
Alta dimensión (imágenes, texto, audio) → Arquitectura especializada es casi obligatoria (CNN, Transformer)
Series de tiempo → Propiedad de Markov + arquitectura temporal (LSTM, Transformer)

Lo que las heurísticas NO te dicen

Qué features usar — eso es conocimiento de dominio
Cuántos datos son “suficientes” — depende de la complejidad del problema
Si el modelo funcionará — solo los datos de prueba te dirán
Cuál es el mejor hiperparámetro — eso es validación cruzada

Nota final: Estas heurísticas son mapas aproximados. El territorio real es tu problema específico — con sus datos, sus requisitos, sus restricciones. No existe receta universal. El objetivo es reducir el espacio de búsqueda, no eliminarlo.

Árbol de decisión rápido

flowchart TD
    START["¿Tienes variable objetivo Y?"]
    START -->|Sí| SUP["¿Tienes teoría del fenómeno?"]
    START -->|No| UNSUP["¿Qué quieres de X?"]

    SUP -->|"Sí, completa"| DED["Deductivo + Grafo"]
    SUP -->|"Parcial"| HIB["Híbrido + Prior/Calibración"]
    SUP -->|"No"| IND["Inductivo"]

    IND --> DATOS["¿Cuántos datos?"]
    DATOS -->|"Muchos"| DNN["DNN / Gradient Boosting"]
    DATOS -->|"Pocos"| GP["GP / Bayesian + Prior"]

    UNSUP -->|"Densidad"| PX["P(X): KDE, Flow, VAE"]
    UNSUP -->|"Comprimir"| PHI["ϕ(X): PCA, Autoencoder"]
    UNSUP -->|"Agrupar"| CLUST["P(C|X): K-Means, GMM"]

Casos de Estudio

Caso 1: Economía Macroeconómica (DSGE)

Problema: Simular efectos de política monetaria

Dimensión	Elección	Justificación
D1: Fuente	Deductivo	Teoría económica (Euler equations, equilibrio general) dicta la estructura
D2: Probabilidad	Frequentist (o Bayesian en bancos centrales modernos)	Calibrar a momentos observados
D3: Objetivo	$P(Y \mid X)$	Distribución de outcomes dado shocks
D4: Arquitectura	Grafo	Sistema de ecuaciones con dependencias explícitas
D5: Supuesto	Momentos/Calibración	Ajustar para reproducir volatilidades, correlaciones observadas

Teoría microeconómica → Ecuaciones estructurales → Parámetros a calibrar
                                                           │
                                            Datos macroeconómicos
                                                           │
                                           Match de momentos (SMM)
                                                           │
                                           Modelo calibrado → Simulación de política

Caso 2: Computer Vision (Clasificación de imágenes)

Problema: Clasificar imágenes en categorías

Dimensión	Elección	Justificación
D1: Fuente	Inductivo	No hay “teoría de imágenes”; patrones emergen de datos
D2: Probabilidad	Frequentist	Optimizar cross-entropy loss
D3: Objetivo	$P(Y \mid X)$ via softmax	Distribución sobre clases
D4: Arquitectura	Flat (pero CNN impone estructura)	Todas las features → output
D5: Supuesto	Arquitectura (CNN)	Invarianza traslacional: objeto es igual donde sea en la imagen

Un gato en la esquina superior izquierda es el mismo gato que en el centro. Convolución + pooling implementan esta invarianza matemáticamente. Es un “prior duro” sobre la clase de funciones.

Caso 3: Medicina (Decisión de tratamiento)

Problema: ¿Dar tratamiento A o B a un paciente?

Dimensión	Elección	Justificación
D1: Fuente	Híbrido	Conocimiento médico + datos de ensayos
D2: Probabilidad	Bayesian	Necesitas incertidumbre para decisiones de vida/muerte
D3: Objetivo	$P(Y \mid do(X))$	¿Qué pasa si DOY este tratamiento? (causal)
D4: Arquitectura	Causal	Distinguir correlación de causación
D5: Supuesto	Prior clínico	Conocimiento médico previo sobre efectos

Pacientes que reciben tratamiento A pueden ser diferentes de los que reciben B (confounding). Queremos saber qué pasa si INTERVENIMOS, no solo qué se observa. Un modelo correlacional podría decir “A es mejor” porque pacientes más sanos lo reciben.

Caso 4: Finanzas (Value at Risk)

Problema: ¿Cuál es la pérdida máxima del portafolio al 95%?

Dimensión	Elección	Justificación
D1: Fuente	Inductivo	Mercados son complejos, sin teoría simple
D2: Probabilidad	Frequentist	Estimar quantiles empíricos
D3: Objetivo	$Q_{0.05}(Y \mid X)$	El percentil 5, no la media
D4: Arquitectura	Flat	Features de mercado → pérdida
D5: Supuesto	Validación	Backtesting en datos históricos

La media de pérdidas es irrelevante para riesgo. Importa el peor caso razonable (cola de la distribución). $E[Y \mid X]$ puede ser positivo mientras $Q_{0.05}(Y \mid X)$ es muy negativo.

Caso 5: NLP Moderno (GPT, BERT)

Problema: Representaciones de texto para múltiples tareas

Dimensión	Elección	Justificación
D1: Fuente	Inductivo	No hay gramática formal suficiente; aprender de corpus
D2: Probabilidad	Frequentist	Maximizar likelihood
D3: Objetivo	$P(X_{t+1} \mid X_{1:t})$ (GPT) o $P(X_{\text{mask}} \mid X_{\text{resto}})$ (BERT)	Self-supervised: Y se deriva de X
D4: Arquitectura	Latente	Aprender representación oculta del lenguaje
D5: Supuesto	Arquitectura Transformer	Atención permite capturar dependencias largas

Etiquetar texto para cada tarea es costosísimo. El propio texto contiene “supervisión gratuita” (predecir palabras). Representaciones aprendidas transfieren a muchas tareas downstream.

Caso 6: Detección de Fraude

Problema: Identificar transacciones fraudulentas

Dimensión	Elección	Justificación
D1: Fuente	Inductivo	Fraude evoluciona, no hay modelo teórico estable
D2: Probabilidad	Frequentist	Estimar densidad
D3: Objetivo	$P(X)$	Transacciones anómalas = baja probabilidad
D4: Arquitectura	Flat	Features de transacción
D5: Supuesto	Densidad/Ensemble	KDE, Isolation Forest

Hay muy pocos ejemplos de fraude etiquetado. Los fraudulentos son “diferentes” de los normales. $P(X)$ bajo = “esta transacción no se parece a las normales”.

Caso 7: Robótica (Fusión de sensores)

Problema: Estimar posición real a partir de GPS + acelerómetro + giroscopio

Dimensión	Elección	Justificación
D1: Fuente	Híbrido	Modelo físico de movimiento + calibración con datos
D2: Probabilidad	Bayesian	Actualizar creencia sobre posición con cada medición
D3: Objetivo	$P(L \mid X,Z)$	Distribución de posición latente dado sensores
D4: Arquitectura	Latente	Posición real L genera observaciones ruidosas X, Z
D5: Supuesto	Modelo de proceso (Kalman)	Física del movimiento como prior

La posición real es UNA, pero la medimos con múltiples sensores ruidosos. Cada sensor tiene diferente tipo de ruido (GPS salta, acelerómetro drifta). Kalman filter fusiona óptimamente bajo supuestos Gaussianos.

Caso 8: Física Computacional (Simulación de fluidos)

Problema: Resolver Navier-Stokes rápidamente

Dimensión	Elección	Justificación
D1: Fuente	Híbrido	Ecuaciones de física conocidas + datos para acelerar
D2: Probabilidad	Frequentist	Minimizar error de reconstrucción
D3: Objetivo	$E[Y \mid X]$	Estado futuro del fluido dado inicial
D4: Arquitectura	Flat (con estructura de física en loss)	Features → estado
D5: Supuesto	Ecuaciones diferenciales	Loss incluye residual de Navier-Stokes

Resolver ecuaciones exactas es muy lento. NN puede aproximar solución rápidamente. Pero sin física, NN puede violar conservación de masa/energía. Agregar ecuaciones al loss = “prior de física”.

Reflexión Final

“All models are wrong, but some are useful.” — George Box

Hemos recorrido un territorio vasto. Desde los axiomas de la física hasta las redes neuronales de mil millones de parámetros. Desde el teorema de Bayes hasta los filtros de Kalman. Desde la humilde media aritmética hasta los efectos causales que distinguen correlación de intervención.

Pero si tuvieras que quedarte con una sola idea, que sea esta: no existe el método de predicción. No hay algoritmo universalmente superior, ni paradigma que los gobierne a todos. Lo que existe es un espacio de decisiones — cinco dimensiones donde cada elección tiene consecuencias, donde cada supuesto abre puertas y cierra otras.

La predicción, al final, es un acto de humildad disfrazado de confianza. Decimos “el modelo predice X” cuando en realidad queremos decir “dados estos supuestos, estos datos, y estas restricciones, nuestra mejor estimación es X”. La honestidad está en conocer los supuestos. La sabiduría está en elegirlos bien.

Ante cualquier método de predicción, pregunta:

¿De dónde viene su conocimiento? ¿De teoría, de datos, o de ambos?
¿Cómo trata la incertidumbre? ¿Como frecuencia o como creencia?
¿Qué intenta estimar? ¿Una media, una distribución, un efecto causal?
¿Qué estructura asume? ¿Variables planas, grafos, latentes?
¿Cómo restringe las hipótesis? ¿Con arquitectura, regularización, priors?

Apunta a entender qué estamos haciendo cuando intentamos predecirlo.

“The oracle sees, but cannot choose.” — Dune Messiah

«La información no es suficiente para garantizar la vida.» — Ghost in the Shell (1995)

Este documento ha tratado sobre ver — sobre estimar, predecir, cuantificar incertidumbre. Pero ver no es actuar. El oráculo ve el futuro, pero eso no le dice qué hacer con esa visión.

Existe en el campo una especie de fetiche con la predicción — en el sentido casi marxista del término: una fascinación con el objeto (el modelo, la métrica, el accuracy) que oscurece las relaciones subyacentes. Nos obsesionamos con $P(Y \mid X)$ y olvidamos preguntar: ¿para qué queremos saber Y? ¿Qué haremos con esa predicción?

Porque la inteligencia artificial no es, en su esencia, sobre predicción. Es sobre agentes, sobre decisiones, sobre sistemas que actúan en el mundo y aprenden de las consecuencias. Es sobre inteligencia — la capacidad de adaptarse, de elegir, de perseguir objetivos en entornos inciertos. La predicción es una herramienta, no el fin.

Los LLMs han ayudado a recordarnos esto. Después de años de obsesión con benchmarks de clasificación y métricas de regresión, los modelos de lenguaje trajeron de vuelta la conversación sobre agentes: sistemas que razonan, que planean, que interactúan. Que no solo predicen la siguiente palabra, sino que la usan para lograr algo.

Anterior: Atlas de métodos | Inicio: Índice del módulo