Decidir Bajo Incertidumbre

“In any moment of decision, the best thing you can do is the right thing. The worst thing you can do is nothing.” — Theodore Roosevelt

El principio de Máxima Utilidad Esperada (MEU)

Si aceptamos los axiomas vNM (sección anterior), la forma racional de decidir bajo riesgo es:

$$a^{∗} = \arg\max_{a \in A} \sum_{s \in S} P(s) \cdot U(o(a, s))$$

o más compactamente:

$$a^{∗} = \arg\max_{a \in A} ; E_S[U(a, S)]$$

Cuando el agente observa evidencia $x$ antes de decidir (lo que viene de predicción), las creencias se actualizan y la fórmula se condiciona:

$$a^{∗}(x) = \arg\max_{a \in A} \sum_{s \in S} P(s \mid x) \cdot U(o(a, s))$$

La versión sin condicionar usa la prior $P(s)$; la versión condicionada usa la posterior $P(s \mid x)$, que es exactamente lo que el módulo 08 nos enseñó a estimar. El principio es el mismo — solo cambian las creencias.

Observación clave: Esto es optimización (módulo 07), pero con un ingrediente nuevo — la probabilidad. En lugar de maximizar $f(x)$ directamente, maximizamos el promedio ponderado de $U$ sobre los posibles estados.

Componente	Viene de…
$\arg\max$	Optimización (módulo 07)
$P(s)$ o $P(s \mid x)$	Probabilidad (módulo 05) + Predicción (módulo 08)
$U(o(a,s))$	Preferencias (sección 9.2)

Con $P(\text{Lluvia}) = 0.4$, $P(\text{Sol}) = 0.6$:

$E[U(\text{Llevar})] = 0.4 \times 8 + 0.6 \times 5 = 3.2 + 3.0 = 6.2$

$E[U(\text{No llevar})] = 0.4 \times 1 + 0.6 \times 10 = 0.4 + 6.0 = 6.4$

$a^{∗} = \text{No llevar}$ (6.4 > 6.2)

Pero si $P(\text{Lluvia}) = 0.7$:

$E[U(\text{Llevar})] = 0.7 \times 8 + 0.3 \times 5 = 5.6 + 1.5 = 7.1$

$E[U(\text{No llevar})] = 0.7 \times 1 + 0.3 \times 10 = 0.7 + 3.0 = 3.7$

$a^{∗} = \text{Llevar}$ (7.1 > 3.7)

El punto de cruce es el valor de $p$ donde ambas acciones son equivalentes. ¿Puedes calcularlo?

Árboles de decisión

Cuando las decisiones son secuenciales (una decisión depende de información revelada después de la primera), usamos árboles de decisión.

Elementos del árbol

Nodo	Forma	Significado
Decisión	Cuadrado	El agente elige
Azar	Círculo	La naturaleza “elige” (probabilidades)
Terminal	Valor	Utilidad del resultado final

Inducción hacia atrás (backward induction)

Para resolver un árbol de decisión:

Empieza por las hojas (resultados terminales).
En cada nodo de azar: calcula la utilidad esperada (promedio ponderado de hijos).
En cada nodo de decisión: elige la rama con mayor utilidad esperada.
Propaga hacia la raíz.

Árbol de decisión

Decisión 1: ¿Perforar o no?
- No perforar → $0k
- Perforar → costo de $100k + incertidumbre
Azar 1: ¿Hay petróleo? ($p = 0.3$)
- Seco ($p = 0.7$) → -$100k
- Petróleo ($p = 0.3$) → Decisión 2
Decisión 2: ¿Pozo grande o chico?
- Pozo chico → $300k
- Pozo grande → Azar 2
Azar 2: ¿Alto o bajo rendimiento? ($p = 0.5$ cada uno)
- Alto → $800k
- Bajo → $200k

Resolución (hacia atrás):

Azar 2: $EU = 0.5 \times 800 + 0.5 \times 200 = 500$
Decisión 2: $\max(500, 300) = 500$ → Pozo grande
Azar 1: $EU = 0.3 \times 500 + 0.7 \times (-100) = 150 - 70 = 80$
Decisión 1: $\max(80, 0) = 80$ → Perforar

Respuesta: Perforar, y si hay petróleo, hacer pozo grande. $EU = 80k$.

Redes de decisión

Las redes de decisión (influence diagrams) son una extensión de las redes Bayesianas que incorporan decisiones y utilidades:

Tipo de nodo	Forma	Significado
Azar (chance)	Óvalo	Variable aleatoria (como en Bayes nets)
Decisión	Rectángulo	Variable que el agente controla
Utilidad	Diamante	Función de utilidad (depende de otros nodos)

Las flechas representan:

Hacia nodos de azar: dependencias probabilísticas
Hacia nodos de decisión: información disponible al decidir
Hacia nodos de utilidad: variables que afectan la utilidad

graph LR
    E(("Enfermedad<br/>(azar)"))
    T["Test<br/>(decisión)"]
    R(("Resultado test<br/>(azar)"))
    Tr["Tratar<br/>(decisión)"]
    UUtilidad

    E -->|"P(E)"| R
    T -->|"hacer/no"| R
    R -->|"informa"| Tr
    E --> U
    Tr --> U
    T --> U

Óvalos (Enfermedad, Resultado): variables aleatorias
Rectángulos (Test, Tratar): decisiones del agente
Diamante (Utilidad): función que depende de la enfermedad real, el tratamiento elegido y el costo del test
La flecha de Resultado → Tratar significa que observamos el resultado del test antes de decidir si tratar

La ventaja sobre árboles: representación compacta cuando hay muchas variables. Un árbol con 5 variables binarias tiene $2^5 = 32$ hojas; una red tiene 5 nodos.

Valor de la Información

Una de las preguntas más poderosas en teoría de la decisión: ¿cuánto vale obtener más información antes de decidir?

La idea en un ejemplo

Imagina el problema del paraguas con $P(\text{Lluvia}) = 0.4$:

Sin información (decides a ciegas):

$EU(\text{Llevar}) = 0.4 \times 8 + 0.6 \times 5 = 6.2$
$EU(\text{No llevar}) = 0.4 \times 1 + 0.6 \times 10 = 6.4$ ← mejor
Eliges “no llevar”, $EU = 6.4$

Con información perfecta (alguien te dice el clima antes de salir):

Si llueve ($p = 0.4$): eliges llevar → utilidad 8
Si sol ($p = 0.6$): eliges no llevar → utilidad 10
$EU = 0.4 \times 8 + 0.6 \times 10 = 9.2$

La diferencia es el Valor de la Información Perfecta:

$$\text{VPI} = 9.2 - 6.4 = 2.8$$

¿Qué pasó? Con información, puedes adaptar tu acción al estado real. Sin información, estás atrapado en una sola acción para todos los estados. El VPI mide cuánto vale poder adaptarse.

Definición formal

Para cualquier fuente de información $E$:

$$\text{VoI}(E) = EU(\text{decide después de observar } E) - EU(\text{decide sin } E)$$

Es decir: primero observas y luego decides (primer término) versus decides a ciegas (segundo término).

Propiedad fundamental: $\text{VoI}(E) \geq 0$. La información nunca tiene valor negativo — en el peor caso, la ignoras y decides igual que antes.

Valor de la Información Perfecta (VPI)

El VPI es el caso extremo: sabes exactamente qué estado va a ocurrir.

$$\text{VPI} = \sum_{s} P(s) \cdot \max_{a} U(a, s) ;-; \max_{a} \sum_{s} P(s) \cdot U(a, s)$$

El primer término es “adaptas la acción a cada estado” (el $\max$ va adentro de la suma). El segundo es “una sola acción para todos” (el $\max$ va afuera).

Intuición matemática: El primer término pone el $\max$ adentro de la suma (eliges la mejor acción para cada estado). El segundo pone el $\max$ afuera (eliges una acción fija y promedias). Como $\max$ adentro $\geq$ $\max$ afuera (siempre es mejor adaptarse que comprometerse), el VPI es siempre $\geq 0$.

$\max$ adentro (adaptarse):

Lluvia: $\max(8, 1) = 8$ (llevar)
Sol: $\max(5, 10) = 10$ (no llevar)
$EU = 0.4 \times 8 + 0.6 \times 10 = 9.2$

$\max$ afuera (comprometerse):

Llevar: $0.4 \times 8 + 0.6 \times 5 = 6.2$
No llevar: $0.4 \times 1 + 0.6 \times 10 = 6.4$
$\max(6.2, 6.4) = 6.4$

$\text{VPI} = 9.2 - 6.4 = 2.8$

Ejemplo: diagnóstico médico

Un ejemplo más realista donde los números importan más:

	Enfermo ($p = 0.1$)	Sano ($p = 0.9$)
Tratar	150	-50
No tratar	-200	0

Sin información:

$EU(\text{Tratar}) = 0.1 \times 150 + 0.9 \times (-50) = 15 - 45 = -30$
$EU(\text{No tratar}) = 0.1 \times (-200) + 0.9 \times 0 = -20$ ← mejor
Mejor decisión: no tratar, $EU = -20$

Con información perfecta (test infalible):

Si enfermo ($p = 0.1$): tratar (150 > -200)
Si sano ($p = 0.9$): no tratar (0 > -50)
$EU = 0.1 \times 150 + 0.9 \times 0 = 15$

$$\text{VPI} = 15 - (-20) = 35$$

Un test diagnóstico perfecto vale 35 unidades de utilidad. Si el test cuesta menos que eso, vale la pena hacerlo.

¿Y un test imperfecto? Si el test tiene 80% de precisión (no infalible), su VoI es menor que 35 pero mayor que 0. Mientras mejor sea el test, más se acerca al VPI.

Valor de la Información

¿Cuándo vale la pena buscar más información?

El VoI convierte “¿debería obtener más datos?” en una cuenta:

Situación	Qué pasa	Acción
Info no cambia la decisión	$\text{VoI} = 0$	Actuar ahora
Info podría cambiar la decisión	$\text{VoI} > 0$	Comparar costo vs VoI
Costo de obtener info $<$ VoI	Ganancia neta	Obtener más datos
Costo de obtener info $>$ VoI	Pérdida neta	Actuar con lo que sabes

Un hospital de urgencias trata a todos los pacientes sin importar el diagnóstico (el costo de no tratar es catastrófico). Un equipo de ML construye un modelo con 95% de accuracy.

$\text{VoI} = 0$ — el modelo no cambia ninguna decisión. El hospital trata a todos de todos modos. La predicción perfecta no vale nada aquí, no porque sea mala, sino porque la acción óptima es la misma con o sin ella.

Regla práctica para ML: Antes de construir un modelo predictivo, pregunta: ¿existe una decisión que este modelo podría cambiar? Si no, el modelo no tiene valor operativo.

Luego minimiza el máximo regret:

$$a^{∗} = \arg\min_{a \in A} \max_{s \in S} R(a, s)$$

Filosofía: No te preocupa el peor resultado, sino el peor arrepentimiento — la diferencia entre lo que obtuviste y lo que hubieras podido obtener.

MEU vs Maximin: diferentes criterios, diferentes decisiones

MEU vs Maximin

Criterio	Cuándo usarlo
MEU	Tienes probabilidades confiables y puedes repetir la decisión muchas veces
Maximin	Las consecuencias del peor caso son inaceptables (seguridad, medicina)
Minimax regret	No tienes probabilidades pero quieres evitar decisiones “obvialmente malas”

Dada la siguiente matriz de pagos:

	$s_1$ (boom)	$s_2$ (normal)	$s_3$ (crisis)
A (agresiva)	100	40	-50
B (conservadora)	30	35	10

Calcula $a^{∗}$ bajo MEU con $P = (0.3, 0.5, 0.2)$.
Calcula $a^{∗}$ bajo maximin.
Calcula la matriz de regret y $a^{∗}$ bajo minimax regret.
¿Algún criterio da la misma respuesta? ¿Por qué o por qué no?

Anterior: Utilidad y preferencias racionales | Siguiente: Optimización estocástica →

Decidir Bajo Incertidumbre

Decidir Bajo Incertidumbre

El principio de Máxima Utilidad Esperada (MEU)

Árboles de decisión

Elementos del árbol

Inducción hacia atrás (backward induction)

Redes de decisión

Valor de la Información

La idea en un ejemplo

Definición formal

Valor de la Información Perfecta (VPI)

Ejemplo: diagnóstico médico

¿Cuándo vale la pena buscar más información?

Criterios sin probabilidades

Maximin (Wald)

Minimax regret (Savage)

MEU vs Maximin: diferentes criterios, diferentes decisiones