Teorema de Bayes
La joya de la corona: cómo actualizar creencias con evidencia.
Derivación desde la Regla del Producto
El Teorema de Bayes no es un axioma adicional — es una consecuencia directa de la regla del producto.
Punto de Partida
La regla del producto dice: $$P(AB|C) = P(A|BC) \cdot P(B|C)$$
Pero también: $$P(AB|C) = P(B|AC) \cdot P(A|C)$$
Igualando
Como ambas expresan $P(AB|C)$: $$P(A|BC) \cdot P(B|C) = P(B|AC) \cdot P(A|C)$$
Despejando
$$P(A|BC) = \frac{P(B|AC) \cdot P(A|C)}{P(B|C)}$$
¡Este es el Teorema de Bayes!
La Forma Estándar
Usando la notación tradicional:
$$P(H|D, I) = \frac{P(D|H, I) \cdot P(H|I)}{P(D|I)}$$
Donde:
- $H$ = Hipótesis (lo que queremos saber)
- $D$ = Datos (evidencia observada)
- $I$ = Información de fondo (contexto)
Los Cuatro Términos
| Término | Nombre | Significado |
|---|---|---|
| $P(H|D,I)$ | Posterior | Probabilidad de H después de ver los datos |
| $P(D|H,I)$ | Likelihood | Probabilidad de los datos si H es verdadera |
| $P(H|I)$ | Prior | Probabilidad de H antes de ver los datos |
| $P(D|I)$ | Evidencia | Probabilidad total de los datos |
La Fórmula en Palabras
$$\text{Posterior} = \frac{\text{Likelihood} \times \text{Prior}}{\text{Evidencia}}$$
O más intuitivamente:
$$\text{Nueva creencia} = \frac{\text{Qué tan bien H explica los datos} \times \text{Creencia previa}}{\text{Normalización}}$$
El Factor de Normalización
El denominador $P(D|I)$ se calcula por marginalización:
$$P(D|I) = \sum_i P(D|H_i, I) \cdot P(H_i|I)$$
Donde ${H_i}$ son todas las hipótesis posibles (partición).
Función: Asegurar que los posteriors sumen 1.
Ejemplo: Diagnóstico Médico
Situación:
- 1% de la población tiene cierta enfermedad: $P(E|I) = 0.01$
- El test detecta la enfermedad en 95% de enfermos: $P(T^+|E,I) = 0.95$
- El test da falso positivo en 5% de sanos: $P(T^+|\neg E,I) = 0.05$
Pregunta: Si el test es positivo, ¿probabilidad de enfermedad?
Aplicando Bayes
$$P(E|T^+, I) = \frac{P(T^+|E,I) \cdot P(E|I)}{P(T^+|I)}$$
Calculando el denominador: $$P(T^+|I) = P(T^+|E,I) \cdot P(E|I) + P(T^+|\neg E,I) \cdot P(\neg E|I)$$ $$= 0.95 \times 0.01 + 0.05 \times 0.99$$ $$= 0.0095 + 0.0495 = 0.059$$
Aplicando la fórmula: $$P(E|T^+, I) = \frac{0.95 \times 0.01}{0.059} = \frac{0.0095}{0.059} \approx 0.16$$
Interpretación
A pesar del test positivo, solo hay ~16% de probabilidad de enfermedad.
¿Por qué tan bajo?
- El prior es muy bajo (1%)
- Aunque el test es bueno, los falsos positivos de la población sana dominan
El Prior: ¿De Dónde Viene?
El prior $P(H|I)$ representa lo que sabíamos antes de ver los datos.
Fuentes de Priors
| Fuente | Ejemplo |
|---|---|
| Frecuencias conocidas | “1% de la población tiene la enfermedad” |
| Conocimiento experto | “Los físicos asignan alta probabilidad a la relatividad” |
| Principios de simetría | “Si no sé nada, asigno igual probabilidad a cada cara del dado” |
| Máxima entropía | “La distribución que hace menos suposiciones” |
La Posición de Jaynes
El prior NO es “subjetivo” en el sentido de arbitrario:
- Dado el mismo conocimiento previo $I$, todos deben asignar el mismo prior
- El prior codifica la información disponible
- Hay métodos objetivos para elegir priors (entropía máxima)
Actualización Secuencial
Bayes permite actualizar creencias paso a paso:
$$P(H|D_1, I) = \frac{P(D_1|H,I) \cdot P(H|I)}{P(D_1|I)}$$
Luego, con nuevos datos $D_2$:
$$P(H|D_2, D_1, I) = \frac{P(D_2|H, D_1, I) \cdot P(H|D_1, I)}{P(D_2|D_1, I)}$$
El posterior de hoy es el prior de mañana.
Ejemplo: Moneda Sospechosa
Sospecho que una moneda puede estar sesgada. Mi prior es $P(\text{justa}) = 0.5$.
- Lanzo 1: Sale cara → actualizo
- Lanzo 2: Sale cara → actualizo
- Lanzo 3: Sale cara → actualizo
- …
Con cada observación, mi creencia se actualiza. Después de muchas caras seguidas, $P(\text{justa})$ será muy baja.
Odds y Bayes Factor
Una forma alternativa de expresar Bayes:
Odds (Momios)
$$\text{Odds}(H) = \frac{P(H)}{P(\neg H)}$$
Bayes Factor
$$\text{BF} = \frac{P(D|H)}{P(D|\neg H)}$$
La Forma de Odds
$$\frac{P(H|D)}{P(\neg H|D)} = \frac{P(H)}{P(\neg H)} \times \frac{P(D|H)}{P(D|\neg H)}$$
$$\text{Posterior Odds} = \text{Prior Odds} \times \text{Bayes Factor}$$
Ventaja: No necesitas calcular $P(D)$.
Aplicaciones en IA
Clasificación Bayesiana
Clasificar un email como spam o no-spam:
$$P(\text{spam}|\text{palabras}) \propto P(\text{palabras}|\text{spam}) \cdot P(\text{spam})$$
Inferencia en Redes Bayesianas
Propagar probabilidades en grafos de variables:
- Usar Bayes para actualizar nodos
- Marginalizar para obtener probabilidades de interés
Aprendizaje Bayesiano
En lugar de un solo parámetro, mantener una distribución sobre parámetros:
$$P(\theta|D) = \frac{P(D|\theta) \cdot P(\theta)}{P(D)}$$
Errores Comunes
1. Ignorar el Prior (Base Rate Neglect)
“El test es 99% preciso, así que 99% de probabilidad de enfermedad”
Error: Ignora que la enfermedad es rara.
2. Confundir P(A|B) con P(B|A)
“P(positivo|enfermo) = 0.95” no es lo mismo que “P(enfermo|positivo)”
Error: La falacia del fiscal.
3. Prior Inadecuado
Elegir priors por conveniencia sin justificación.
Resumen
| Concepto | Descripción |
|---|---|
| Teorema de Bayes | Se deriva de la regla del producto |
| Prior | Creencia antes de ver datos |
| Likelihood | Qué tan bien la hipótesis explica los datos |
| Posterior | Creencia después de ver datos |
| Evidencia | Normalizador; probabilidad total de los datos |
| Actualización | El posterior de hoy es el prior de mañana |
La Fórmula
$$P(H|D,I) = \frac{P(D|H,I) \cdot P(H|I)}{P(D|I)}$$
Esta simple ecuación es la base de:
- Inferencia estadística
- Aprendizaje automático
- Toma de decisiones bajo incertidumbre
- Inteligencia artificial
Siguiente: Esperanza y Momentos →