17.7 — Aplicaciones y variantes
“In theory, there is no difference between theory and practice. In practice, there is.” — Jan L. A. van de Snepscheut
7.1 A/B Testing: bandidos en producción
La aplicación más directa de los bandidos multibrazo es el A/B testing — la práctica de comparar variantes de un producto para determinar cuál funciona mejor. La correspondencia es exacta:
| Concepto A/B Testing | Concepto Bandidos | Ejemplo |
|---|---|---|
| Variantes (A, B, C, …) | Brazos ($i = 1, \ldots, K$) | Dos diseños de botón de compra |
| Conversión (clic, compra, registro) | Recompensa $r_t \in {0, 1}$ | Usuario compra ($r=1$) o no ($r=0$) |
| Usuarios que llegan | Rondas $t = 1, \ldots, T$ | 10,000 visitantes por día |
| Tasa de conversión | Media del brazo $\mu_i$ | Botón rojo: $\mu_A = 0.03$; azul: $\mu_B = 0.05$ |
| Costo de oportunidad | Regret acumulado $R_T$ | Usuarios que vieron el peor diseño |
El enfoque tradicional
El A/B testing clásico funciona así:
- Dividir el tráfico 50/50 entre las variantes
- Esperar hasta alcanzar significancia estadística (típicamente $p < 0.05$)
- Desplegar la variante ganadora al 100% del tráfico
¿Cuáles son los problemas?
- Desperdicio de tráfico: durante toda la prueba, exactamente la mitad de los usuarios ve la variante inferior. Si la prueba dura 2 semanas con 100,000 usuarios, 50,000 reciben la peor experiencia
- Tamaño de muestra fijo: hay que decidir de antemano cuántos usuarios incluir. Si se mira el resultado antes de tiempo y se toma una decisión, se infla la tasa de falsos positivos (peeking problem)
- Sin adaptación: si una variante es claramente superior desde el día 3, el test sigue asignando 50/50 hasta completar el tamaño planificado
El enfoque adaptativo: Thompson Sampling
En lugar de asignación fija, usamos Thompson Sampling para decidir qué variante mostrar a cada usuario:
- Mantener un posterior $\text{Beta}(\alpha_i, \beta_i)$ para cada variante
- Cuando llega un usuario, muestrear $\theta_i \sim \text{Beta}(\alpha_i, \beta_i)$ para cada variante
- Mostrar la variante con mayor $\theta_i$
- Si el usuario convierte: $\alpha_i \leftarrow \alpha_i + 1$; si no: $\beta_i \leftarrow \beta_i + 1$
Beneficios:
- Reduce el regret durante la prueba: conforme se acumula evidencia, más tráfico va a la variante superior. Si $\mu_B \gg \mu_A$, rápidamente ~90% del tráfico irá a B
- Adapta a comportamiento no estacionario: si las preferencias de los usuarios cambian (por temporada, día de la semana), el posterior se ajusta
- Sin tamaño de muestra fijo: no hay compromiso previo — se puede monitorear continuamente sin inflar falsos positivos (el problema de peeking no aplica de la misma forma)

La figura muestra la diferencia fundamental: en el enfoque tradicional, la asignación es constante (50/50) durante toda la prueba. En el enfoque adaptativo con Thompson Sampling, la asignación converge hacia la variante con mayor tasa de conversión, reduciendo la cantidad de usuarios expuestos al diseño inferior.
Consideraciones prácticas
| Aspecto | Recomendación |
|---|---|
| Muestra mínima | Asignar al menos $\sim$100 observaciones por variante antes de que la adaptación domine, para evitar convergencia prematura por ruido |
| Cuándo declarar ganador | Cuando $P(\mu_A > \mu_B \mid \text{datos}) > 0.95$ (calculable directamente de los posteriores Beta) |
| Restricciones regulatorias | Algunos sectores (finanzas, salud) requieren aleatorización fija por ley — los bandidos no siempre son aplicables |
| Múltiples métricas | Conversión inmediata vs retención a 30 días: la recompensa debe capturar el objetivo real, no un proxy |
Empresas como Google, Netflix, Microsoft y Spotify usan variantes de bandidos para optimización continua de sus productos. Google reportó que en 2010 realizó más de 7,000 A/B tests solo para el buscador — muchos de ellos con asignación adaptativa.
7.2 Ensayos clínicos: la dimensión ética
En un ensayo clínico, cada “brazo” es un tratamiento y cada “recompensa” es la recuperación (o no) de un paciente. La estructura matemática es idéntica al A/B testing, pero las consecuencias son radicalmente diferentes: cada paciente asignado al tratamiento inferior sufre un daño real.
El enfoque tradicional
Los ensayos clásicos (Fase I/II/III) usan asignación fija — típicamente 1:1 entre tratamiento y control. Esto tiene justificación estadística (máxima potencia para detectar diferencias) pero un costo humano: si el tratamiento es claramente superior, la mitad de los pacientes recibe el control hasta que el ensayo termina.
La alternativa adaptativa
Los ensayos adaptativos usan Thompson Sampling (u otros algoritmos de bandidos) para asignar más pacientes al tratamiento que está mostrando mejores resultados. La idea es la misma que en A/B testing, pero con una motivación ética directa: minimizar el número de pacientes que reciben un tratamiento inferior.
Caso real: REMAP-CAP durante COVID-19. El ensayo REMAP-CAP (Randomized, Embedded, Multifactorial Adaptive Platform for Community-Acquired Pneumonia) usó aleatorización adaptativa durante la pandemia de COVID-19. Conforme se acumulaba evidencia sobre la efectividad de distintos tratamientos (corticosteroides, antivirales, anticoagulantes), el ensayo ajustaba automáticamente la probabilidad de asignación. Esto permitió identificar tratamientos efectivos más rápido que un ensayo tradicional de asignación fija, y redujo el número de pacientes asignados a tratamientos que se mostraban inferiores.
La tensión fundamental
| Objetivo | Favorece |
|---|---|
| Bienestar del paciente | Asignación adaptativa (más pacientes al mejor tratamiento) |
| Validez estadística | Asignación fija (potencia máxima, sin sesgos de asignación) |
| Aceptación regulatoria | Asignación fija (la FDA y la EMA tienen protocolos establecidos) |
| Velocidad de conclusión | Asignación adaptativa (puede alcanzar significancia antes) |
No hay una respuesta simple. Los reguladores médicos aceptan cada vez más los diseños adaptativos, pero con restricciones. La FDA publicó en 2019 una guía específica para ensayos adaptativos, reconociendo su potencial pero exigiendo transparencia en las reglas de adaptación.
7.3 Publicidad y sistemas de recomendación
Publicidad en línea
Cada vez que un usuario visita una página web, el sistema debe decidir qué anuncio mostrar. Cada anuncio es un brazo; el clic del usuario es la recompensa ($r = 1$ si hace clic, $r = 0$ si no). El objetivo: maximizar la tasa de clics (CTR, click-through rate) acumulada.
Empresas como Google Ads, Meta y Amazon enfrentan este problema a una escala masiva: millones de anuncios posibles, miles de millones de impresiones por día. A esta escala, la formulación básica de $K$ brazos independientes es insuficiente — se necesitan las variantes que veremos en la sección 7.4.
Sistemas de recomendación
Netflix, Spotify, YouTube y otros sistemas de recomendación enfrentan un problema análogo: ¿qué contenido recomendar a un usuario? Cada recomendación es una acción; el engagement del usuario (clic, tiempo de visualización, valoración) es la recompensa.
Los desafíos específicos incluyen:
- Millones de brazos: Netflix tiene miles de títulos; YouTube, miles de millones de videos. Las soluciones clásicas ($K$ brazos independientes) no escalan
- Cold-start: ¿cómo recomendar un contenido nuevo del que no tenemos datos? Es el equivalente a un brazo sin observaciones
- Contexto: la mejor recomendación depende del usuario, la hora, el dispositivo, el historial. Esto lleva a los bandidos contextuales (sección 7.4)
7.4 Más allá del bandido clásico: variantes
El problema de $K$ brazos con recompensas i.i.d. que estudiamos en este módulo es el caso base. En la práctica, muchas aplicaciones requieren extensiones. La siguiente tabla presenta las variantes más importantes:

| Variante | Idea clave | Algoritmo(s) | Caso de uso | Conexión en el curso |
|---|---|---|---|---|
| Bandidos contextuales | La recompensa depende de un vector de contexto $x_t$ (features del usuario, del item, etc.). El agente aprende $\mu_i(x)$ en lugar de $\mu_i$ | LinUCB, Thompson contextual | Recomendaciones personalizadas, publicidad dirigida | Módulo 08 (predicción) — regresión como modelo de recompensa |
| Bandidos no estacionarios | Las distribuciones $\nu_i$ cambian con el tiempo. Las observaciones recientes importan más | Discounted UCB, Sliding-window UCB, EXP3.S | Precios dinámicos, preferencias cambiantes de usuarios | Sección 17.6 (EXP3 para el caso adversarial) |
| Bandidos combinatoriales | El agente selecciona un subconjunto de brazos (“super-brazo”) en cada ronda | CUCB, Thompson combinatorial | Ruteo en redes, selección de features, asignación de recursos | — |
| Identificación del mejor brazo | El objetivo es identificar el brazo óptimo con alta probabilidad, no minimizar regret. Exploración pura | Successive Elimination, LUCB | Ajuste de hiperparámetros, A/B testing (fase de exploración) | — |
| Optimización bayesiana | Espacio continuo de brazos; se usa un Gaussian Process como modelo del posterior | GP-UCB, Expected Improvement | Optimización de hiperparámetros, diseño experimental | Módulo 07 (optimización) — búsqueda en espacios continuos |
| Bandidos de duelo | Solo se observan comparaciones por pares (no recompensas absolutas): “¿A es mejor que B?” | RUCB, DTS (Double Thompson) | Ranking, aprendizaje de preferencias | — |
| Bandidos inquietos (restless) | Los brazos evolucionan incluso cuando no se jalan. El estado de cada brazo cambia en cada ronda | Whittle index policy | Asignación de canales, scheduling de sensores, mantenimiento predictivo | — |
Cada variante merece un estudio propio. Lo importante para este curso es reconocer que el problema fundamental — balancear exploración y explotación bajo incertidumbre — aparece en formas cada vez más complejas, y las ideas centrales (optimismo, muestreo bayesiano, asignación basada en pesos exponenciales) se adaptan a cada caso.
7.5 Hacia adelante: UCT y árboles de búsqueda Monte Carlo
Una de las aplicaciones más impactantes de UCB1 no involucra bandidos per se, sino árboles de juego. El algoritmo UCT (Upper Confidence bounds applied to Trees) — propuesto por Kocsis y Szepesvári en 2006 — fue un ingrediente clave en la revolución de AlphaGo.
La idea es tratar cada nodo de un árbol de búsqueda como un problema de bandidos independiente:
- Las acciones disponibles en un nodo son los brazos
- La recompensa de un brazo es el resultado de una simulación aleatoria (rollout) desde el nodo hijo
- La fórmula de selección es exactamente UCB1:
$$\text{UCT}(v) = \bar{X}_v + c\sqrt{\frac{\ln N(\text{parent})}{N(v)}}$$
donde $\bar{X}_v$ es la recompensa media de las simulaciones que pasaron por el nodo $v$, $N(v)$ es el número de visitas al nodo $v$, y $N(\text{parent})$ es el número de visitas al nodo padre.
El ciclo de Monte Carlo Tree Search (MCTS) repite cuatro fases: selección (bajar por el árbol usando UCT), expansión (añadir un nodo nuevo), simulación (rollout aleatorio hasta un estado terminal), y retropropagación (actualizar las estadísticas de todos los nodos visitados).
Esta conexión es profunda: en el Módulo 15 (búsqueda adversarial) vimos minimax y poda alfa-beta como métodos exactos para árboles de juego. MCTS con UCT es la alternativa aproximada que escala a juegos donde la búsqueda exhaustiva es imposible — como Go, donde el factor de ramificación es ~250. Los bandidos multibrazo proporcionan la teoría que fundamenta la fase de selección.
Este tema se desarrollará en un módulo futuro dedicado a MCTS.
Resumen del módulo
A lo largo de este módulo recorrimos el problema del bandido multibrazo desde sus fundamentos hasta sus aplicaciones:
| Sección | Tema | Idea central |
|---|---|---|
| 17.1 | El dilema | Exploración vs explotación: aprender y decidir simultáneamente |
| 17.2 | $\varepsilon$-Greedy | La solución más simple: explorar al azar con probabilidad $\varepsilon$ |
| 17.3 | UCB1 | Optimismo ante la incertidumbre: explorar donde la cota superior es alta |
| 17.4 | Thompson Sampling | El enfoque bayesiano: muestrear del posterior y actuar según la muestra |
| 17.5 | Comparación | Ningún algoritmo domina universalmente; cada uno tiene su nicho |
| 17.6 | EXP3 | El caso adversarial: pesos exponenciales sin asumir distribuciones fijas |
| 17.7 | Aplicaciones y variantes | Del modelo a la práctica: A/B testing, ensayos clínicos, MCTS |
Las tres ideas fundamentales que recorren todo el módulo son:
- El regret como métrica: medir el costo acumulado de no saber cuál es la mejor opción, en lugar de simplemente medir la recompensa
- La cota inferior de Lai-Robbins: ningún algoritmo puede tener regret mejor que $\Omega(\log T)$ — y UCB1 y Thompson Sampling alcanzan este orden
- La transición de exploración a explotación: todo buen algoritmo explora mucho al inicio y explota al final, pero los mecanismos varían — aleatoriedad ($\varepsilon$-greedy), optimismo (UCB1), incertidumbre bayesiana (Thompson), o pesos adaptativos (EXP3)
Estos conceptos no son exclusivos de los bandidos. Aparecen en aprendizaje por refuerzo (donde el agente explora un espacio de estados), en optimización bayesiana (donde la función objetivo es costosa de evaluar), y en árboles de búsqueda Monte Carlo (donde la exploración del árbol debe balancearse con la explotación del conocimiento acumulado). El bandido multibrazo es el laboratorio mínimo donde todas estas ideas se ven con claridad.