Las Reglas de Probabilidad

Dos caminos al mismo destino: axiomas vs desiderata.

Dos Enfoques

Hay dos formas de llegar a las reglas de probabilidad:

Enfoque	Autor	Método
Axiomático	Kolmogorov (1933)	Postular axiomas, derivar consecuencias
Constructivo	Cox/Jaynes	Derivar reglas de requisitos de consistencia

Ambos llegan a las mismas reglas matemáticas, pero con diferente justificación.

El Enfoque de Kolmogorov

Los Axiomas

Kolmogorov define probabilidad mediante tres axiomas:

Axioma 1 (No negatividad): $$P(A) \geq 0$$

Axioma 2 (Normalización): $$P(\Omega) = 1$$

Axioma 3 (Aditividad): Si $A \cap B = \emptyset$, entonces: $$P(A \cup B) = P(A) + P(B)$$

Ventajas

Riguroso: Base matemática sólida
General: Funciona para cualquier espacio de probabilidad
Aceptado: Estándar en matemáticas

Limitación

Los axiomas se postulan, no se justifican. ¿Por qué estos axiomas y no otros?

El Enfoque de Jaynes/Cox

El Punto de Partida

En lugar de axiomas, Jaynes parte de desiderata (requisitos):

Los grados de plausibilidad son números reales
Correspondencia cualitativa con sentido común
Consistencia

La Derivación

De estos requisitos, se derivan las reglas:

Paso 1: Buscar la forma funcional de $P(AB|C)$

Por el desideratum de sentido común:

La plausibilidad de “$A$ y $B$” depende de la plausibilidad de $B$ y de $A$ dado $B$
Debe existir una función: $P(AB|C) = F(P(A|BC), P(B|C))$

Por consistencia (asociatividad):

$P(ABC|D) = F(F(P(A|BCD), P(B|CD)), P(C|D))$
$P(ABC|D) = F(P(A|BCD), F(P(B|CD), P(C|D)))$

El análisis funcional muestra que $F$ debe ser el producto.

Paso 2: Derivar la regla de la suma

Por sentido común:

Si $A$ es más plausible, $\neg A$ es menos plausible
Existe una función: $P(\neg A|B) = S(P(A|B))$

Por consistencia:

$P(A|B) = S(S(P(A|B)))$ (negar dos veces)
Esto restringe fuertemente la forma de $S$

El resultado: $S(x) = 1 - x$, es decir: $$P(A|B) + P(\neg A|B) = 1$$

Las Dos Reglas Fundamentales

Regla del Producto

$$P(AB|C) = P(A|BC) \cdot P(B|C) = P(B|AC) \cdot P(A|C)$$

Lectura: “La probabilidad de A y B dado C es la probabilidad de B dado C, multiplicada por la probabilidad de A dado que B y C son verdaderos.”

Regla de la Suma

$$P(A|C) + P(\neg A|C) = 1$$

Lectura: “Las probabilidades de A y no-A suman 1.”

Extensión para eventos mutuamente excluyentes: $$P(A \cup B|C) = P(A|C) + P(B|C) \quad \text{si } A \cap B = \emptyset$$

Comparación de Enfoques

Aspecto	Kolmogorov	Jaynes
Punto de partida	Axiomas	Desiderata
Justificación	“Son los axiomas”	“Son las únicas reglas consistentes”
Reglas	Se postulan	Se derivan
Interpretación	Neutral	Probabilidad como lógica extendida
Resultado	Idéntico	Idéntico

El punto clave: Jaynes no cambia las matemáticas, cambia la justificación.

¿Por Qué Importa la Diferencia?

Para la Filosofía

Kolmogorov: “Usamos estas reglas porque las definimos así” Jaynes: “Debemos usar estas reglas si queremos ser consistentes”

Para la Práctica

Cuando enfrentamos problemas de asignación de probabilidades:

Kolmogorov: Los axiomas no dicen cómo asignar valores específicos
Jaynes: Los desiderata guían la asignación (máxima entropía, etc.)

Para la IA

Un agente que “razona bajo incertidumbre” no tiene opción:

Si quiere ser consistente, debe usar probabilidad
Las reglas no son una elección de diseño, son un requisito

La Regla de la Suma Generalizada

Para eventos que no son mutuamente excluyentes:

$$P(A \cup B|C) = P(A|C) + P(B|C) - P(AB|C)$$

Derivación:

$A \cup B$ se puede descomponer en partes disjuntas:

$A \cup B = A \cup (B \cap \neg A)$
$P(A \cup B) = P(A) + P(B \cap \neg A)$
$P(B \cap \neg A) = P(B) - P(AB)$

Por lo tanto: $$P(A \cup B) = P(A) + P(B) - P(AB)$$

Regla del Producto: Versión Simétrica

De la regla del producto: $$P(AB|C) = P(A|BC) \cdot P(B|C)$$ $$P(AB|C) = P(B|AC) \cdot P(A|C)$$

Igualando: $$P(A|BC) \cdot P(B|C) = P(B|AC) \cdot P(A|C)$$

Esta simetría es la base del Teorema de Bayes.

Regla de la Cadena

Extendiendo la regla del producto a múltiples variables:

$$P(A_1, A_2, …, A_n | C) = P(A_1|C) \cdot P(A_2|A_1, C) \cdot P(A_3|A_1, A_2, C) \cdots P(A_n|A_1,…,A_{n-1}, C)$$

Ejemplo con tres variables: $$P(ABC|D) = P(A|D) \cdot P(B|AD) \cdot P(C|ABD)$$

Esto es fundamental para:

Modelos gráficos probabilísticos
Redes bayesianas
Modelos de lenguaje (¡LLMs!)

Resumen

Regla	Fórmula	Origen
Producto	$P(AB\|C) = P(A\|BC) \cdot P(B\|C)$	Consistencia + sentido común
Suma	$P(A\|C) + P(\neg A\|C) = 1$	Consistencia
Suma general	$P(A \cup B) = P(A) + P(B) - P(AB)$	Derivada de las anteriores
Cadena	$P(A_1…A_n) = \prod_i P(A_i\|A_1…A_{i-1})$	Aplicación repetida

Lo fundamental: Estas no son reglas arbitrarias — son las únicas reglas que satisfacen requisitos básicos de racionalidad.

Siguiente: Teorema de Bayes →