by Dataevo
Tan atípico fue el cuadro final del Mundial de Rusia que ningún estudio previo al torneo pudo predecir los resultados que terminamos viendo del mismo. La predicción más popular, elaborada por varias instituciones académicas, sólo pudo acertar dos encuentros de los octavos de final:

La selección croata solo tenía un 6% de posibilidades de llegar a la final del mundial. Francia, por su parte, tenía un 20,8%. Como podemos ver en la imagen de arriba, los porcentajes en general son de baja confianza, por lo tanto, el modelo en realidad tiene poco poder predictivo. Veamos por qué pudo haber sido.
Metodología
Para realizar el análisis y entrenar a los algoritmos, utilizaron datos de todos los partidos de las últimas cuatro Copas Mundiales de la FIFA (2002-2014). Probando varios métodos, seleccionaron al mejor y lo utilizaron para predecir los resultados de la Copa 2018: simularon su desarrollo partido a partido unas 100.000 veces y con un promedio final obtuvieron los resultados esperados.
Datos utilizados
-
Factores económicos: PBI per cápita durante el 2002-2014 y tamaño de la población.
-
Factores deportivos: probabilidad ODDSET y rango de rendimiento de todos los equipos nacionales en los últimos cuatro años realizado por la FIFA.
-
Ventajas propias: anfitrión, continente, confederación.
-
Factores que describen la estructura del equipo: compañeros que juegan juntos en el mismo club, edad promedio, número de jugadores en el extranjero, etc.
-
Factores que describen al entrenador: edad, duración de su tenencia, si tiene la misma nacionalidad que el equipo.
Modelos
Utilizaron tres métodos basados en clasificación y regresión con árboles de decisión, probando su rendimiento predictivo haciendo una suerte de validación cruzada con las 4 Copas anteriores disponibles para entrenar:
-
Formar un conjunto de datos de entrenamiento que contenga tres de cuatro Copas.
-
Ajustar cada uno de los métodos a los datos de entrenamiento.
-
Predecir la Copa descartada usando cada uno de los métodos de predicción.
-
Repetir los pasos 1 a 3 de manera tal que cada Copa sea una vez la que quede afuera.
-
Comparar los resultados pronosticados y reales para todos los métodos de predicción.
Uno de los algoritmos principales del modelo estaba basado en los bosques de árboles aleatorios, similar al que usamos nosotros en DEVOBOOSTER. Este algoritmo de aprendizaje automático opera construyendo una serie de árboles de decisión con cierto grado de aleatoridad para luego combinarlos en un modelo final. Pueden ver un vídeo que hicimos explicándolo aquí.
Conclusión
Si tanto el algoritmo como la forma de evaluación son correctas pero sin embargo el poder predictivo resulta ser bajo, ¿Qué pudo haber pasado? Evidentemente, las variables que utilizó el modelo no fueron suficientes. Diversos factores incontrolables y/o imposibles de medir afectaron al rendimiento de los equipos. Algunos ejemplos:
-
La noche previa al partido de Suecia-Inglaterra, los suecos fueron desalojados del hotel al dispararse la alarma de incendios. Al parecer, fue activada por algún hincha inglés.
-
La supuesta pelea entre Messi y su mujer, relacionándolo con el poco rendimiento del primer partido que tuvo el capitán del equipo.
Si estas variables son importantes pero no están incorporadas en los modelos, es lógico que no lleguen a tener un gran poder predictivo. Sin embargo, vale aclarar que este caso también es difícil porque se trata de uno solo: la copa se juega una vez y nada más. Teóricamente, si los modelos estuvieran bien ajustados y pudieramos jugar la copa miles de veces en universos paralelos, veríamos con mucha frecuencia los resultados predichos. En la implementación práctica de proyectos de minería de datos y aprendizaje automático, esta anécdota recuerda la importancia de no quedarase con uno o dos casos para validar o desestimar un modelo predictivo.