Datasets (descarga y licencias)
Este módulo usa priors realistas para:
- palabras en español (para Wordle/hacking),
- contraseñas comunes (para password guessing),
pero no comiteamos datasets grandes en el repo. En su lugar:
- incluimos un fallback pequeño (offline) para demos rápidas,
- y scripts para descargar y procesar datasets completos.
1) Palabras en español con frecuencias (OpenSLR SLR21)
Usamos el recurso OpenSLR SLR21 (es_wordlist.json) con licencia CC BY-SA 3.0.
- Fuente: OpenSLR SLR21
- Licencia: CC BY-SA 3.0
- Uso: obtener conteos/frecuencias aproximadas de palabras.
Qué descargamos: un tarball es_wordlist.json.tgz y lo procesamos.
2) Listas de contraseñas comunes (SecLists)
Usamos SecLists (MIT) para listas “common credentials”.
⚠️ Nota ética/legal:
- Evitamos datasets de leaks personales “raw” cuando sea posible.
- Aun así, listas de contraseñas comunes existen y se usan para auditorías defensivas.
- Este material es educativo y debe usarse solo con fines defensivos o en entornos autorizados.
Descarga y preparación
Desde clase/06_teoria_de_la_informacion/:
python -m datasets.download_datasets
python -m datasets.prepare_lexicons
Esto generará archivos en datasets/cache/ (no deberían comitearse si son grandes).
Fallback offline (comiteado)
Si no hay internet, el capstone usa:
datasets/mini_spanish_5letter.txtdatasets/mini_passwords.txt
Son listas pequeñas, suficientes para explicar el método (no para “realismo” total).