Metodología
Fuente de datos
Se usaron datos oficiales de la red RAMA y el catálogo de estaciones para 2022.
- 8,760 horas de monitoreo.
- 5 zonas geográficas.
- 6 contaminantes: O3, PM2.5, PM10, NO2, CO y SO2.
- 1.7% de valores faltantes.
Procedimiento general
- Lectura del archivo oficial.
- Limpieza de fechas, tipos y faltantes.
- Transformación de formato ancho a formato largo.
- Cálculo de variables derivadas: mes, temporada y periodo del día.
- Análisis exploratorio.
- ANOVA de dos factores.
- Modelos de clasificación y clustering.
Pipeline
Volumen de datos
Decisiones importantes
- La imputación se hizo por grupo zona × periodo del día.
- O3 se excluyó de los predictores en clasificación para evitar data leakage.
- PCA y clustering se aplicaron sobre promedios zonales para resumir perfiles espaciales.
Fuente consultada
http://datosabiertos.aire.cdmx.gob.mx:8080/Opendata/IndiceCalidadAire/indice_2022.csv