Datasets (descarga y licencias)

Este módulo usa priors realistas para:

pero no comiteamos datasets grandes en el repo. En su lugar:

1) Palabras en español con frecuencias (OpenSLR SLR21)

Usamos el recurso OpenSLR SLR21 (es_wordlist.json) con licencia CC BY-SA 3.0.

Qué descargamos: un tarball es_wordlist.json.tgz y lo procesamos.

Usamos SecLists (MIT) para listas “common credentials”.

⚠️ Nota ética/legal:

Evitamos datasets de leaks personales “raw” cuando sea posible.
Aun así, listas de contraseñas comunes existen y se usan para auditorías defensivas.
Este material es educativo y debe usarse solo con fines defensivos o en entornos autorizados.

Desde clase/06_teoria_de_la_informacion/:

python -m datasets.download_datasets
python -m datasets.prepare_lexicons

Esto generará archivos en datasets/cache/ (no deberían comitearse si son grandes).

Si no hay internet, el capstone usa:

Son listas pequeñas, suficientes para explicar el método (no para “realismo” total).