Almeria AH
Pipeline cuantitativo para decidir si existe edge predictivo real en los precios de hortalizas almerienses. Scrapers diarios, 26 series temporales, 6 modelos en competencia y walk-forward expanding window con criterio binario PASS/FAIL.
El Reto
Almería es el huerto de Europa pero los precios de hortalizas en alhóndiga se mueven en niebla informativa. Antes de invertir en un producto de predicción, había que responder una pregunta binaria: ¿se puede batir el baseline naive con datos públicos?
Resultados
- 26 series temporales (5 productos × 6 alhondigas) desde enero 2025
- 6 modelos en competencia con walk-forward expanding window
- Métricas punto (MAE/RMSE/MAPE) + intervalos (pinball, coverage 80/95%)
- Criterio go/no-go explícito: mejora MAE ≥15% vs baseline naive
La Solución
Construí un pipeline de investigación end-to-end: cuatro scrapers diarios (fhalmeria, ASAJA, AEMET, hortoinfo), normalización idempotente en SQLite, features de lags + meteo + noticias, seis modelos en competencia (Naive, SeasonalNaive, ARIMA, LGBM, LGBMMeteo, LGBMRich) y walk-forward expanding window con métricas punto e intervalos. El criterio go/no-go es explícito: batir baseline en MAE ≥15%.
Motivación
Quería un proyecto donde el rigor metodológico fuese la feature, no la decoración. Si la respuesta es PASS hay producto en 2027; si es FAIL, archivo la hipótesis con datos y evito repetir el experimento por olvido en años futuros.
Retos
La parte más delicada fue evitar leakage en el walk-forward: cada ventana solo puede ver datos disponibles en su instante real, lo que obliga a versionar features (meteo predicha vs realizada, noticias del día anterior, etc.). Y los scrapers de la pizarra de fhalmeria cambian de formato cada pocas semanas.
Aprendizajes
Aprendí que un baseline naive bien medido es la mejor herramienta de honestidad intelectual de un proyecto ML: si no lo bates de forma consistente en walk-forward, no tienes producto. Y que tener un criterio binario PASS/FAIL escrito antes del experimento te ahorra meses de auto-engaño.
Contexto
Investigación en fase final. Veredicto go/no-go pendiente antes del 2026-09-30. No es producto en 2026; el output es un documento de veredicto público.