Las Reglas de Probabilidad
Dos caminos al mismo destino: axiomas vs desiderata.
Dos Enfoques
Hay dos formas de llegar a las reglas de probabilidad:
| Enfoque | Autor | Método |
|---|---|---|
| Axiomático | Kolmogorov (1933) | Postular axiomas, derivar consecuencias |
| Constructivo | Cox/Jaynes | Derivar reglas de requisitos de consistencia |
Ambos llegan a las mismas reglas matemáticas, pero con diferente justificación.
El Enfoque de Kolmogorov
Los Axiomas
Kolmogorov define probabilidad mediante tres axiomas:
Axioma 1 (No negatividad): $$P(A) \geq 0$$
Axioma 2 (Normalización): $$P(\Omega) = 1$$
Axioma 3 (Aditividad): Si $A \cap B = \emptyset$, entonces: $$P(A \cup B) = P(A) + P(B)$$
Ventajas
- Riguroso: Base matemática sólida
- General: Funciona para cualquier espacio de probabilidad
- Aceptado: Estándar en matemáticas
Limitación
Los axiomas se postulan, no se justifican. ¿Por qué estos axiomas y no otros?
El Enfoque de Jaynes/Cox
El Punto de Partida
En lugar de axiomas, Jaynes parte de desiderata (requisitos):
- Los grados de plausibilidad son números reales
- Correspondencia cualitativa con sentido común
- Consistencia
La Derivación
De estos requisitos, se derivan las reglas:
Paso 1: Buscar la forma funcional de $P(AB|C)$
Por el desideratum de sentido común:
- La plausibilidad de “$A$ y $B$” depende de la plausibilidad de $B$ y de $A$ dado $B$
- Debe existir una función: $P(AB|C) = F(P(A|BC), P(B|C))$
Por consistencia (asociatividad):
- $P(ABC|D) = F(F(P(A|BCD), P(B|CD)), P(C|D))$
- $P(ABC|D) = F(P(A|BCD), F(P(B|CD), P(C|D)))$
El análisis funcional muestra que $F$ debe ser el producto.
Paso 2: Derivar la regla de la suma
Por sentido común:
- Si $A$ es más plausible, $\neg A$ es menos plausible
- Existe una función: $P(\neg A|B) = S(P(A|B))$
Por consistencia:
- $P(A|B) = S(S(P(A|B)))$ (negar dos veces)
- Esto restringe fuertemente la forma de $S$
El resultado: $S(x) = 1 - x$, es decir: $$P(A|B) + P(\neg A|B) = 1$$
Las Dos Reglas Fundamentales
Regla del Producto
$$P(AB|C) = P(A|BC) \cdot P(B|C) = P(B|AC) \cdot P(A|C)$$
Lectura: “La probabilidad de A y B dado C es la probabilidad de B dado C, multiplicada por la probabilidad de A dado que B y C son verdaderos.”
Regla de la Suma
$$P(A|C) + P(\neg A|C) = 1$$
Lectura: “Las probabilidades de A y no-A suman 1.”
Extensión para eventos mutuamente excluyentes: $$P(A \cup B|C) = P(A|C) + P(B|C) \quad \text{si } A \cap B = \emptyset$$
Comparación de Enfoques
| Aspecto | Kolmogorov | Jaynes |
|---|---|---|
| Punto de partida | Axiomas | Desiderata |
| Justificación | “Son los axiomas” | “Son las únicas reglas consistentes” |
| Reglas | Se postulan | Se derivan |
| Interpretación | Neutral | Probabilidad como lógica extendida |
| Resultado | Idéntico | Idéntico |
El punto clave: Jaynes no cambia las matemáticas, cambia la justificación.
¿Por Qué Importa la Diferencia?
Para la Filosofía
Kolmogorov: “Usamos estas reglas porque las definimos así” Jaynes: “Debemos usar estas reglas si queremos ser consistentes”
Para la Práctica
Cuando enfrentamos problemas de asignación de probabilidades:
- Kolmogorov: Los axiomas no dicen cómo asignar valores específicos
- Jaynes: Los desiderata guían la asignación (máxima entropía, etc.)
Para la IA
Un agente que “razona bajo incertidumbre” no tiene opción:
- Si quiere ser consistente, debe usar probabilidad
- Las reglas no son una elección de diseño, son un requisito
La Regla de la Suma Generalizada
Para eventos que no son mutuamente excluyentes:
$$P(A \cup B|C) = P(A|C) + P(B|C) - P(AB|C)$$
Derivación:
$A \cup B$ se puede descomponer en partes disjuntas:
- $A \cup B = A \cup (B \cap \neg A)$
- $P(A \cup B) = P(A) + P(B \cap \neg A)$
- $P(B \cap \neg A) = P(B) - P(AB)$
Por lo tanto: $$P(A \cup B) = P(A) + P(B) - P(AB)$$
Regla del Producto: Versión Simétrica
De la regla del producto: $$P(AB|C) = P(A|BC) \cdot P(B|C)$$ $$P(AB|C) = P(B|AC) \cdot P(A|C)$$
Igualando: $$P(A|BC) \cdot P(B|C) = P(B|AC) \cdot P(A|C)$$
Esta simetría es la base del Teorema de Bayes.
Regla de la Cadena
Extendiendo la regla del producto a múltiples variables:
$$P(A_1, A_2, …, A_n | C) = P(A_1|C) \cdot P(A_2|A_1, C) \cdot P(A_3|A_1, A_2, C) \cdots P(A_n|A_1,…,A_{n-1}, C)$$
Ejemplo con tres variables: $$P(ABC|D) = P(A|D) \cdot P(B|AD) \cdot P(C|ABD)$$
Esto es fundamental para:
- Modelos gráficos probabilísticos
- Redes bayesianas
- Modelos de lenguaje (¡LLMs!)
Resumen
| Regla | Fórmula | Origen |
|---|---|---|
| Producto | $P(AB|C) = P(A|BC) \cdot P(B|C)$ | Consistencia + sentido común |
| Suma | $P(A|C) + P(\neg A|C) = 1$ | Consistencia |
| Suma general | $P(A \cup B) = P(A) + P(B) - P(AB)$ | Derivada de las anteriores |
| Cadena | $P(A_1…A_n) = \prod_i P(A_i|A_1…A_{i-1})$ | Aplicación repetida |
Lo fundamental: Estas no son reglas arbitrarias — son las únicas reglas que satisfacen requisitos básicos de racionalidad.
Siguiente: Teorema de Bayes →