Teorema de Bayes

Teorema de Bayes

La joya de la corona: cómo actualizar creencias con evidencia.

Derivación desde la Regla del Producto

El Teorema de Bayes no es un axioma adicional — es una consecuencia directa de la regla del producto.

Punto de Partida

La regla del producto dice: $$P(AB|C) = P(A|BC) \cdot P(B|C)$$

Pero también: $$P(AB|C) = P(B|AC) \cdot P(A|C)$$

Igualando

Como ambas expresan $P(AB|C)$: $$P(A|BC) \cdot P(B|C) = P(B|AC) \cdot P(A|C)$$

Despejando

$$P(A|BC) = \frac{P(B|AC) \cdot P(A|C)}{P(B|C)}$$

¡Este es el Teorema de Bayes!

La Forma Estándar

Usando la notación tradicional:

$$P(H|D, I) = \frac{P(D|H, I) \cdot P(H|I)}{P(D|I)}$$

Donde:

$H$ = Hipótesis (lo que queremos saber)
$D$ = Datos (evidencia observada)
$I$ = Información de fondo (contexto)

Los Cuatro Términos

Término	Nombre	Significado
$P(H\|D,I)$	Posterior	Probabilidad de H después de ver los datos
$P(D\|H,I)$	Likelihood	Probabilidad de los datos si H es verdadera
$P(H\|I)$	Prior	Probabilidad de H antes de ver los datos
$P(D\|I)$	Evidencia	Probabilidad total de los datos

La Fórmula en Palabras

$$\text{Posterior} = \frac{\text{Likelihood} \times \text{Prior}}{\text{Evidencia}}$$

O más intuitivamente:

$$\text{Nueva creencia} = \frac{\text{Qué tan bien H explica los datos} \times \text{Creencia previa}}{\text{Normalización}}$$

El Factor de Normalización

El denominador $P(D|I)$ se calcula por marginalización:

$$P(D|I) = \sum_i P(D|H_i, I) \cdot P(H_i|I)$$

Donde ${H_i}$ son todas las hipótesis posibles (partición).

Función: Asegurar que los posteriors sumen 1.

Ejemplo: Diagnóstico Médico

Situación:

1% de la población tiene cierta enfermedad: $P(E|I) = 0.01$
El test detecta la enfermedad en 95% de enfermos: $P(T^+|E,I) = 0.95$
El test da falso positivo en 5% de sanos: $P(T^+|\neg E,I) = 0.05$

Pregunta: Si el test es positivo, ¿probabilidad de enfermedad?

Aplicando Bayes

$$P(E|T^+, I) = \frac{P(T^+|E,I) \cdot P(E|I)}{P(T^+|I)}$$

Aplicando la fórmula: $$P(E|T^+, I) = \frac{0.95 \times 0.01}{0.059} = \frac{0.0095}{0.059} \approx 0.16$$

Interpretación

A pesar del test positivo, solo hay ~16% de probabilidad de enfermedad.

¿Por qué tan bajo?

El prior es muy bajo (1%)
Aunque el test es bueno, los falsos positivos de la población sana dominan

El Prior: ¿De Dónde Viene?

El prior $P(H|I)$ representa lo que sabíamos antes de ver los datos.

Fuentes de Priors

Fuente	Ejemplo
Frecuencias conocidas	“1% de la población tiene la enfermedad”
Conocimiento experto	“Los físicos asignan alta probabilidad a la relatividad”
Principios de simetría	“Si no sé nada, asigno igual probabilidad a cada cara del dado”
Máxima entropía	“La distribución que hace menos suposiciones”

La Posición de Jaynes

El prior NO es “subjetivo” en el sentido de arbitrario:

Dado el mismo conocimiento previo $I$, todos deben asignar el mismo prior
El prior codifica la información disponible
Hay métodos objetivos para elegir priors (entropía máxima)

Actualización Secuencial

Bayes permite actualizar creencias paso a paso:

$$P(H|D_1, I) = \frac{P(D_1|H,I) \cdot P(H|I)}{P(D_1|I)}$$

Luego, con nuevos datos $D_2$:

$$P(H|D_2, D_1, I) = \frac{P(D_2|H, D_1, I) \cdot P(H|D_1, I)}{P(D_2|D_1, I)}$$

El posterior de hoy es el prior de mañana.

Ejemplo: Moneda Sospechosa

Sospecho que una moneda puede estar sesgada. Mi prior es $P(\text{justa}) = 0.5$.

Lanzo 1: Sale cara → actualizo
Lanzo 2: Sale cara → actualizo
Lanzo 3: Sale cara → actualizo
…

Con cada observación, mi creencia se actualiza. Después de muchas caras seguidas, $P(\text{justa})$ será muy baja.

Ventaja: No necesitas calcular $P(D)$.

Usar Bayes para actualizar nodos
Marginalizar para obtener probabilidades de interés

Concepto	Descripción
Teorema de Bayes	Se deriva de la regla del producto
Prior	Creencia antes de ver datos
Likelihood	Qué tan bien la hipótesis explica los datos
Posterior	Creencia después de ver datos
Evidencia	Normalizador; probabilidad total de los datos
Actualización	El posterior de hoy es el prior de mañana

La Fórmula

$$P(H|D,I) = \frac{P(D|H,I) \cdot P(H|I)}{P(D|I)}$$

Esta simple ecuación es la base de:

Inferencia estadística
Aprendizaje automático
Toma de decisiones bajo incertidumbre
Inteligencia artificial

Siguiente: Esperanza y Momentos →

Teorema de Bayes

Derivación desde la Regla del Producto

Punto de Partida

Igualando

Despejando

La Forma Estándar

Los Cuatro Términos

La Fórmula en Palabras

El Factor de Normalización

Ejemplo: Diagnóstico Médico

Aplicando Bayes

Interpretación

El Prior: ¿De Dónde Viene?

Fuentes de Priors

La Posición de Jaynes

Actualización Secuencial

Ejemplo: Moneda Sospechosa

Odds y Bayes Factor

Odds (Momios)

Bayes Factor

La Forma de Odds

Aplicaciones en IA

Clasificación Bayesiana

Inferencia en Redes Bayesianas

Aprendizaje Bayesiano

Errores Comunes

1. Ignorar el Prior (Base Rate Neglect)

2. Confundir P(A|B) con P(B|A)

3. Prior Inadecuado

Resumen

La Fórmula