Modulo 14: Pandas — Transformaciones y Tiempo
En los modulos anteriores el foco estuvo en leer, limpiar y combinar datos. El siguiente paso natural es transformarlos para contestar preguntas reales: crear nuevas variables, resumir informacion por grupos, normalizar columnas y trabajar con fechas de forma consistente.
Este modulo se concentra en tres ideas que suelen confundirse cuando apenas empiezas con pandas:
apply,mapytransformno hacen lo mismo, aunque sus nombres se parezcan.- Las fechas parecen simples hasta que aparecen formatos mezclados, zonas horarias y operaciones calendario.
groupbyno solo sirve para “sacar promedios”; tambien permite transformar y filtrar sin perder el contexto fila por fila.
La meta no es memorizar metodos aislados, sino construir un mapa mental: que objeto recibe tu funcion, que forma tendra el resultado y cuando una operacion conserva o cambia el numero de filas.
Contenido
| Seccion | Tema | Tiempo |
|---|---|---|
| Funciones vectorizadas | El mapa mental de apply/map/transform | ~8 min |
| Tiempo y groupby | Timestamps, UTC, groupby avanzado | ~5 min |
| Pandas 3.0 | CoW obligatorio, strings Arrow, applymap eliminado, groupby observed, migracion | ~10 min |
Que deberias poder hacer al terminar
- Distinguir entre operaciones elemento a elemento, por fila/columna y por grupo.
- Decidir cuando
transformes mejor opcion queapply. - Parsear fechas sin introducir ambiguedades de timezone.
- Diseñar agregaciones y features por grupo sin romper la forma del DataFrame.
- Reconocer cambios de pandas 3.0 que afectan notebooks y pipelines escritos para versiones anteriores.
Notebooks
| Notebook | Tema | Tiempo |
|---|---|---|
| Apply, Map y Transform | map/apply en Series, apply con axis en DataFrame, applymap, transform, edge cases, argumentos extra | ~35 min |
| Timestamps y Timezones | to_datetime, formatos, UTC, tz_localize/convert, .dt accessor, features temporales | ~15 min |
| Groupby | agg, transform, filter, named agg, multicolumna | ~10 min |
| Pandas 3.0 | Cambios de comportamiento, codigo legacy vs moderno, checklist de migracion | ~20 min |
Prerequisitos
- Modulo 12 y 13: Pandas completados
pip install -r requirements.txt
Idea central del modulo
Muchos errores en pandas no vienen de “no saber la sintaxis”, sino de no tener claro el nivel de operacion:
- celda individual
- Serie completa
- fila o columna
- grupo
- DataFrame completo
Si identificas ese nivel antes de escribir codigo, eliges mejor entre map, apply, transform, agg, filter o pipe, y tu codigo se vuelve mas predecible, mas facil de depurar y normalmente tambien mas rapido.