Mapa Visual, Heurísticas y Casos de Estudio
Saber que existen cinco dimensiones es útil. El siguiente diagrama muestra cómo se relacionan las dimensiones entre sí — no es una guía de qué elegir, sino un mapa de las opciones disponibles.
Mapa Visual de la Taxonomía
Flujo de las 5 dimensiones
flowchart TD
START(["PROBLEMA DE PREDICCIÓN"]) --> Q1
Q1{"D1: FUENTE DE CONOCIMIENTO - ¿De dónde viene la estructura?"}
Q1 -->|"Teoría completa (física, economía)"| D1_DED["DEDUCTIVO - Ecuaciones teóricas"]
Q1 -->|"Teoría + datos (calibración)"| D1_HIB["HÍBRIDO - Estructura teórica, parámetros de datos"]
Q1 -->|"Solo datos (ML clásico)"| D1_IND["INDUCTIVO - Todo se aprende"]
D1_DED --> Q2
D1_HIB --> Q2
D1_IND --> Q2
Q2{"D2: INTERPRETACIÓN PROBABILÍSTICA - ¿Cómo tratas la incertidumbre?"}
Q2 -->|"Actualizar creencias con datos"| D2_BAY["BAYESIANO - P(θ|datos)"]
Q2 -->|"Frecuencias límite"| D2_FRQ["FREQUENTIST - MLE, intervalos"]
D2_BAY --> Q3
D2_FRQ --> Q3
Q3{"D3: OBJETIVO MATEMÁTICO - ¿Tienes variable objetivo Y?"}
Q3 -->|"Sí, supervisado"| Q4
Q3 -->|"No, unsupervised"| Q4B
Q4{"¿Qué estadístico de Y necesitas?"}
Q4 -->|"Media"| D3_EY["E[Y|X] - Predicción puntual"]
Q4 -->|"Distribución"| D3_PY["P(Y|X) - Incertidumbre total"]
Q4 -->|"Percentiles"| D3_Q["Qα[Y|X] - VaR e intervalos"]
Q4 -->|"Intervención"| D3_DO["P(Y|do(X)) - Causalidad"]
Q4B{"¿Qué quieres de X?"}
Q4B -->|"Densidad"| D3_PX["P(X) - Anomalías y generación"]
Q4B -->|"Compresión"| D3_PHI["ϕ(X) - Embeddings"]
Q4B -->|"Clusters"| D3_C["P(C|X) - Segmentación"]
D3_EY --> Q5
D3_PY --> Q5
D3_Q --> Q5
D3_DO --> D4_CAUS["CAUSAL - DAG con do()"]
D3_PX --> Q5B
D3_PHI --> Q5B
D3_C --> Q5B
Q5{"D4: ARQUITECTURA - ¿Estructura entre variables?"}
Q5 -->|"Features intercambiables"| D4_FLAT["FLAT - X → f(θ) → Y"]
Q5 -->|"Dependencias explícitas"| D4_GRAF["PGM - DAG, MRF, HMM"]
Q5 -->|"Variable oculta L"| D4_LAT["LATENTE - L → X, Y"]
Q5B{"¿Estructura en datos?"}
Q5B -->|"Ninguna especial"| D4B_FLAT["FLAT"]
Q5B -->|"Manifold/Embedding"| D4B_LAT["LATENTE - P(X|L), VAE"]
Q5B -->|"Mezcla de distribuciones"| D4B_GEN["GENERATIVA - P(X), Gaussian Mixture"]
D4_FLAT --> Q6
D4_GRAF --> Q6
D4_LAT --> Q6
D4_CAUS --> Q6
D4B_FLAT --> Q6
D4B_LAT --> Q6
D4B_GEN --> Q6
Q6{"D5: SUPUESTO INDUCTIVO - ¿Qué estructura asumes?"}
Q6 -->|"Simetría/Invarianza"| D5_ARQ["ARQUITECTURA - CNN, Transformer"]
Q6 -->|"Penalizar complejidad"| D5_PEN["REGULARIZACIÓN - L1, L2, Dropout"]
Q6 -->|"Creencia previa"| D5_PRI["PRIOR - P(θ)"]
Q6 -->|"Match de momentos"| D5_CAL["CALIBRACIÓN - E[g(X,θ)]=0"]
Q6 -->|"Performance en holdout"| D5_CV["VALIDACIÓN - CV, train/test"]
Q6 -->|"Independencia temporal"| D5_MRK["MARKOV - P(Xₜ₊₁|Xₜ)"]
Combinaciones comunes
| Si tu situación es… | Considera… |
|---|---|
| Muchos datos, sin teoría previa | Inductivo + Frequentist + DNN |
| Pocos datos, conocimiento experto | Híbrido + Bayesian + PGM |
| Necesitas tomar decisiones/políticas | Cualquier D1 + Causal + Invarianza |
| Imágenes/texto/señales | Inductivo + Arquitectura especializada (CNN, Transformer) |
| Datos tabulares estructurados | Inductivo + Gradient Boosting |
| Cuantificar riesgo | Quantiles o Bayesian + $P(Y \mid X)$ |
| Detectar anomalías | Inductivo + $P(X)$ + Density estimation |
| Generar datos sintéticos | Inductivo + $P(X)$ + VAE/GAN/Flow |
| Transfer learning | Self-supervised + Latente |
| Simulación con física conocida | Híbrido + Physics-Informed |
| Economía/macro | Deductivo + Calibración/Momentos |
Heurísticas para Elegir
Advertencia: Lo que sigue son heurísticas, no reglas. Son puntos de partida para orientar la exploración, no respuestas definitivas. El contexto siempre manda.
Heurísticas por dimensión
Cada dimensión tiene preguntas que ayudan a elegir:
D1: Fuente de Conocimiento
- Pregunta: ¿Tienes teoría validada del fenómeno?
- Sí → Deductivo o Híbrido
- No → Inductivo
- ¿Pocos datos? → Híbrido puede ayudar
D2: Interpretación de Probabilidad
- Pregunta: ¿Necesitas incertidumbre sobre los parámetros?
- Sí → Bayesiano
- Solo predicción puntual → Frequentist suele bastar
D3: Objetivo Matemático
- Pregunta: ¿Qué harás con la predicción?
- Decisión binaria → $P(Y \mid X)$
- Un número → $E[Y \mid X]$
- Cuantificar riesgo → Quantiles
- Intervenir/causar → $do(X)$
D4: Arquitectura de Variables
- Pregunta: ¿Hay estructura conocida entre variables?
- Sí, dependencias explícitas → PGM/Grafo
- Datos de alta dimensión → Latente
- Sin estructura especial → Flat
D5: Supuesto Inductivo
- Pregunta: ¿Qué invariancias o estructura conoces del problema?
- Invarianza espacial → CNN
- Invarianza secuencial → Transformer/Markov
- No sé → Regularización + Cross-validation
Reglas generales (aproximadas)
Algunas combinaciones que suelen funcionar:
- Pocos datos + mucha teoría → Deductivo o Híbrido + Bayesiano + PGM
- Muchos datos + poca teoría → Inductivo + Frequentist + DNN o Gradient Boosting
- Necesitas explicar el modelo → PGM, modelos lineales, evitar cajas negras
- Necesitas efectos causales → Arquitectura Causal (no hay atajo)
- Alta dimensión (imágenes, texto, audio) → Arquitectura especializada es casi obligatoria (CNN, Transformer)
- Series de tiempo → Propiedad de Markov + arquitectura temporal (LSTM, Transformer)
Lo que las heurísticas NO te dicen
- Qué features usar — eso es conocimiento de dominio
- Cuántos datos son “suficientes” — depende de la complejidad del problema
- Si el modelo funcionará — solo los datos de prueba te dirán
- Cuál es el mejor hiperparámetro — eso es validación cruzada
Nota final: Estas heurísticas son mapas aproximados. El territorio real es tu problema específico — con sus datos, sus requisitos, sus restricciones. No existe receta universal. El objetivo es reducir el espacio de búsqueda, no eliminarlo.
Árbol de decisión rápido
flowchart TD
START["¿Tienes variable objetivo Y?"]
START -->|Sí| SUP["¿Tienes teoría del fenómeno?"]
START -->|No| UNSUP["¿Qué quieres de X?"]
SUP -->|"Sí, completa"| DED["Deductivo + Grafo"]
SUP -->|"Parcial"| HIB["Híbrido + Prior/Calibración"]
SUP -->|"No"| IND["Inductivo"]
IND --> DATOS["¿Cuántos datos?"]
DATOS -->|"Muchos"| DNN["DNN / Gradient Boosting"]
DATOS -->|"Pocos"| GP["GP / Bayesian + Prior"]
UNSUP -->|"Densidad"| PX["P(X): KDE, Flow, VAE"]
UNSUP -->|"Comprimir"| PHI["ϕ(X): PCA, Autoencoder"]
UNSUP -->|"Agrupar"| CLUST["P(C|X): K-Means, GMM"]
Casos de Estudio
Caso 1: Economía Macroeconómica (DSGE)
Problema: Simular efectos de política monetaria
| Dimensión | Elección | Justificación |
|---|---|---|
| D1: Fuente | Deductivo | Teoría económica (Euler equations, equilibrio general) dicta la estructura |
| D2: Probabilidad | Frequentist (o Bayesian en bancos centrales modernos) | Calibrar a momentos observados |
| D3: Objetivo | $P(Y \mid X)$ | Distribución de outcomes dado shocks |
| D4: Arquitectura | Grafo | Sistema de ecuaciones con dependencias explícitas |
| D5: Supuesto | Momentos/Calibración | Ajustar para reproducir volatilidades, correlaciones observadas |
Teoría microeconómica → Ecuaciones estructurales → Parámetros a calibrar
│
Datos macroeconómicos
│
Match de momentos (SMM)
│
Modelo calibrado → Simulación de política
Caso 2: Computer Vision (Clasificación de imágenes)
Problema: Clasificar imágenes en categorías
| Dimensión | Elección | Justificación |
|---|---|---|
| D1: Fuente | Inductivo | No hay “teoría de imágenes”; patrones emergen de datos |
| D2: Probabilidad | Frequentist | Optimizar cross-entropy loss |
| D3: Objetivo | $P(Y \mid X)$ via softmax | Distribución sobre clases |
| D4: Arquitectura | Flat (pero CNN impone estructura) | Todas las features → output |
| D5: Supuesto | Arquitectura (CNN) | Invarianza traslacional: objeto es igual donde sea en la imagen |
Un gato en la esquina superior izquierda es el mismo gato que en el centro. Convolución + pooling implementan esta invarianza matemáticamente. Es un “prior duro” sobre la clase de funciones.
Caso 3: Medicina (Decisión de tratamiento)
Problema: ¿Dar tratamiento A o B a un paciente?
| Dimensión | Elección | Justificación |
|---|---|---|
| D1: Fuente | Híbrido | Conocimiento médico + datos de ensayos |
| D2: Probabilidad | Bayesian | Necesitas incertidumbre para decisiones de vida/muerte |
| D3: Objetivo | $P(Y \mid do(X))$ | ¿Qué pasa si DOY este tratamiento? (causal) |
| D4: Arquitectura | Causal | Distinguir correlación de causación |
| D5: Supuesto | Prior clínico | Conocimiento médico previo sobre efectos |
Pacientes que reciben tratamiento A pueden ser diferentes de los que reciben B (confounding). Queremos saber qué pasa si INTERVENIMOS, no solo qué se observa. Un modelo correlacional podría decir “A es mejor” porque pacientes más sanos lo reciben.
Caso 4: Finanzas (Value at Risk)
Problema: ¿Cuál es la pérdida máxima del portafolio al 95%?
| Dimensión | Elección | Justificación |
|---|---|---|
| D1: Fuente | Inductivo | Mercados son complejos, sin teoría simple |
| D2: Probabilidad | Frequentist | Estimar quantiles empíricos |
| D3: Objetivo | $Q_{0.05}(Y \mid X)$ | El percentil 5, no la media |
| D4: Arquitectura | Flat | Features de mercado → pérdida |
| D5: Supuesto | Validación | Backtesting en datos históricos |
La media de pérdidas es irrelevante para riesgo. Importa el peor caso razonable (cola de la distribución). $E[Y \mid X]$ puede ser positivo mientras $Q_{0.05}(Y \mid X)$ es muy negativo.
Caso 5: NLP Moderno (GPT, BERT)
Problema: Representaciones de texto para múltiples tareas
| Dimensión | Elección | Justificación |
|---|---|---|
| D1: Fuente | Inductivo | No hay gramática formal suficiente; aprender de corpus |
| D2: Probabilidad | Frequentist | Maximizar likelihood |
| D3: Objetivo | $P(X_{t+1} \mid X_{1:t})$ (GPT) o $P(X_{\text{mask}} \mid X_{\text{resto}})$ (BERT) | Self-supervised: Y se deriva de X |
| D4: Arquitectura | Latente | Aprender representación oculta del lenguaje |
| D5: Supuesto | Arquitectura Transformer | Atención permite capturar dependencias largas |
Etiquetar texto para cada tarea es costosísimo. El propio texto contiene “supervisión gratuita” (predecir palabras). Representaciones aprendidas transfieren a muchas tareas downstream.
Caso 6: Detección de Fraude
Problema: Identificar transacciones fraudulentas
| Dimensión | Elección | Justificación |
|---|---|---|
| D1: Fuente | Inductivo | Fraude evoluciona, no hay modelo teórico estable |
| D2: Probabilidad | Frequentist | Estimar densidad |
| D3: Objetivo | $P(X)$ | Transacciones anómalas = baja probabilidad |
| D4: Arquitectura | Flat | Features de transacción |
| D5: Supuesto | Densidad/Ensemble | KDE, Isolation Forest |
Hay muy pocos ejemplos de fraude etiquetado. Los fraudulentos son “diferentes” de los normales. $P(X)$ bajo = “esta transacción no se parece a las normales”.
Caso 7: Robótica (Fusión de sensores)
Problema: Estimar posición real a partir de GPS + acelerómetro + giroscopio
| Dimensión | Elección | Justificación |
|---|---|---|
| D1: Fuente | Híbrido | Modelo físico de movimiento + calibración con datos |
| D2: Probabilidad | Bayesian | Actualizar creencia sobre posición con cada medición |
| D3: Objetivo | $P(L \mid X,Z)$ | Distribución de posición latente dado sensores |
| D4: Arquitectura | Latente | Posición real L genera observaciones ruidosas X, Z |
| D5: Supuesto | Modelo de proceso (Kalman) | Física del movimiento como prior |
La posición real es UNA, pero la medimos con múltiples sensores ruidosos. Cada sensor tiene diferente tipo de ruido (GPS salta, acelerómetro drifta). Kalman filter fusiona óptimamente bajo supuestos Gaussianos.
Caso 8: Física Computacional (Simulación de fluidos)
Problema: Resolver Navier-Stokes rápidamente
| Dimensión | Elección | Justificación |
|---|---|---|
| D1: Fuente | Híbrido | Ecuaciones de física conocidas + datos para acelerar |
| D2: Probabilidad | Frequentist | Minimizar error de reconstrucción |
| D3: Objetivo | $E[Y \mid X]$ | Estado futuro del fluido dado inicial |
| D4: Arquitectura | Flat (con estructura de física en loss) | Features → estado |
| D5: Supuesto | Ecuaciones diferenciales | Loss incluye residual de Navier-Stokes |
Resolver ecuaciones exactas es muy lento. NN puede aproximar solución rápidamente. Pero sin física, NN puede violar conservación de masa/energía. Agregar ecuaciones al loss = “prior de física”.
Reflexión Final
“All models are wrong, but some are useful.” — George Box
Hemos recorrido un territorio vasto. Desde los axiomas de la física hasta las redes neuronales de mil millones de parámetros. Desde el teorema de Bayes hasta los filtros de Kalman. Desde la humilde media aritmética hasta los efectos causales que distinguen correlación de intervención.
Pero si tuvieras que quedarte con una sola idea, que sea esta: no existe el método de predicción. No hay algoritmo universalmente superior, ni paradigma que los gobierne a todos. Lo que existe es un espacio de decisiones — cinco dimensiones donde cada elección tiene consecuencias, donde cada supuesto abre puertas y cierra otras.
La predicción, al final, es un acto de humildad disfrazado de confianza. Decimos “el modelo predice X” cuando en realidad queremos decir “dados estos supuestos, estos datos, y estas restricciones, nuestra mejor estimación es X”. La honestidad está en conocer los supuestos. La sabiduría está en elegirlos bien.
Ante cualquier método de predicción, pregunta:
- ¿De dónde viene su conocimiento? ¿De teoría, de datos, o de ambos?
- ¿Cómo trata la incertidumbre? ¿Como frecuencia o como creencia?
- ¿Qué intenta estimar? ¿Una media, una distribución, un efecto causal?
- ¿Qué estructura asume? ¿Variables planas, grafos, latentes?
- ¿Cómo restringe las hipótesis? ¿Con arquitectura, regularización, priors?
Apunta a entender qué estamos haciendo cuando intentamos predecirlo.
“The oracle sees, but cannot choose.” — Dune Messiah
«La información no es suficiente para garantizar la vida.» — Ghost in the Shell (1995)
Este documento ha tratado sobre ver — sobre estimar, predecir, cuantificar incertidumbre. Pero ver no es actuar. El oráculo ve el futuro, pero eso no le dice qué hacer con esa visión.
Existe en el campo una especie de fetiche con la predicción — en el sentido casi marxista del término: una fascinación con el objeto (el modelo, la métrica, el accuracy) que oscurece las relaciones subyacentes. Nos obsesionamos con $P(Y \mid X)$ y olvidamos preguntar: ¿para qué queremos saber Y? ¿Qué haremos con esa predicción?
Porque la inteligencia artificial no es, en su esencia, sobre predicción. Es sobre agentes, sobre decisiones, sobre sistemas que actúan en el mundo y aprenden de las consecuencias. Es sobre inteligencia — la capacidad de adaptarse, de elegir, de perseguir objetivos en entornos inciertos. La predicción es una herramienta, no el fin.
Los LLMs han ayudado a recordarnos esto. Después de años de obsesión con benchmarks de clasificación y métricas de regresión, los modelos de lenguaje trajeron de vuelta la conversación sobre agentes: sistemas que razonan, que planean, que interactúan. Que no solo predicen la siguiente palabra, sino que la usan para lograr algo.
Anterior: Atlas de métodos | Inicio: Índice del módulo