En este artículo mostramos un ejemplo de como podemos predecir el porcentaje de victorias de un equipo en una temporada a partir de la información histórica de esa competición. Para ello utilizaremos la denominada Expectativa Pitagórica (James, 1983), métrica muy popular en el mundo del análisis de datos en béisbol, que recordemos, fue donde se estableció la base del análisis de datos como pieza fundamental en el deporte (Lewis, 2004). La Expectativa Pitagórica fue propuesta por Bill James, uno de los pioneros del “Sabermetrics”, como ecuación para estimar el porcentaje de partidos de béisbol que un equipo debería haber ganado en función de las carreras realizadas y recibidas. Su nombre proviene de la similitud, entre la ecuación y el famoso teorema. Su formulación clásica es la siguiente:

Esta ecuación se ha comprobado que correlaciona fuertemente con el rendimiento real, no solo de los equipos de béisbol, sino también con otros deportes, tales como el criquet, fútbol americano, hockey sobre hielo, fútbol o el que nos ocupa, el baloncesto.
En los últimos años han aparecido diferentes adaptaciones de esta ecuación, en especial del exponente de esta, buscando una mayor precisión de los resultados y un mayor ajuste a determinados deportes. Este es el caso de:
- la ecuación desarrollada por Clay Davenport que establece el exponente mediante:
- la variante de David Smyth, que lo calcula mediante:
- y, el modelo de Daryl Morey, que ajustó el modelo clásico a los resultados históricos de la NBA, obteniendo el exponente 13.91 como el valor que mejor predecía los partidos ganados.
En consecuencia, se pretende comprobar como funcionan estos modelos con datos reales del baloncesto FIBA, que como de todos es sabido, difiere del baloncesto norteamericano en algunos aspectos que afectan a la puntuación, en especial el tiempo de juego o los tipos de defensas que en este se permiten. Para ello se han tomado los datos históricos de la Euroleague Basketball, liga que aúna a algunos de los mejores clubs de baloncesto europeos. Los datos utilizados, disponibles en la web oficial de la liga (www.euroleaguebasketball.net), están compuestos por los resultados de todos los partidos disputados en la competición desde su creación en la temporada 2000-2001. En resumen, se han analizado un total de 21 temporadas, 4922 partidos y 84 equipos. Tomando como variables las puntuaciones anotadas y recibidas de cada partido, así como la variable victoria (1 ganado, 0 perdido), se han calculado el global del “Porcentaje de victoria” y la “Expectativa pitagórica” (Clásica) de cada equipo participante en alguna temporada de la competición.
Una de las técnicas básicas, pero que proporcionan mejor rendimiento e interpretabilidad, para el modelado estadístico del comportamiento de una variable continua en función de una o varias variables predictoras, es la regresión lineal. Esta técnica describe la relación entre la variable dependiente, en nuestro caso la “Proporción de victorias” (PV), en función de una u otras variables independientes, en nuestro primer ejemplo la “Expectativa pitagórica” clásica (EPC). Es decir, queremos representar la proporción de victorias (Y) en función de la expectativa pitagórica clásica (X) mediante la recta:
Donde los representan los coeficientes de regresión (término independiente y pendiente de la recta) y el error debido a la aleatoriedad del modelo.
Utilizando el entorno de programación R, uno de los más utilizados en Ciencia de Datos, se ha calculado la recta de regresión lineal a partir de los datos definidos anteriormente, obteniendo la ecuación:
Obteniendo un Coeficiente de Determinación R2 = 0.8415; es decir, la proporción de la variación de la “Proporción de victorias” explicada por el modelo es del 84,15%; y un R2 ajustado de 0.8396.
Los resultados obtenidos muestran un modelo bastante decente, que relaciona las dos variables de estudio y que sirven para modelizar el comportamiento de estas. En la Figura 1, se ha representado el modelo para el histórico de la Euroleague, separando por colores los equipos en función al cuartil de pertenecía respecto a la proporción de victorias (desde el color rojo con valores inferiores al cuartil 1, al morado, con valores superiores al cuartil 3). En esta gráfica se muestra una fuerte relación lineal creciente entre las variables, donde los equipos con mayor expectativa pitagórica, como el caso del CSKA, FC Barcelona o Real Madrid, son los que mayor proporción de victorias han conseguido.
Figura 1. Diagrama de dispersión y regresión lineal para el modelo clásico
Como se observa, la expectativa pitagórica clásica se ajunta correctamente a la proporción de victorias, pero ¿qué ocurre con las proporciones de participación en la segunda fase (PPO), Final Four (PFF) o de ganar la competición (PW)? En la Figura 2 se muestra la matriz de correlaciones entre estas variables, donde se observa una alta correlación entre la expectativa pitagórica clásica y la proporción de victorias, una correlación aceptable respecto a la proporción de participación en la segunda fase, pero baja en el caso de la proporción de participación en la Final Four o de ganar la competición. Es decir, participar en la Final Four o de ganar la competición va a depender de otros factores más allá de los tratados en este ejemplo.
Figura 2. Matriz de correlaciones entre proporciones
Se han comparado los cuatro modelos definidos anteriormente para comprobar cuál se ajusta más a los datos. Además, se han incluido dos modelos que tienen en cuenta únicamente las puntuaciones en cada parte del partido y se han creado uno que relaciona las puntuaciones generales con la obtenida en las partes, y otro que vincula dichas puntuaciones generales con la de los cuartos. Los resultados (Tabla 1) nos indican que, de los modelos de la literatura tradicionales, es el de Clay Davenport el que mejor se ajusta a los datos de la Euroleague. Sin embargo, este dista en casi un punto de los dos modelos que tienen en cuenta la información intermedia de los partidos. El R2 ajustado nos muestra que el modelo que tiene en cuenta los cuartos, con más información que el anterior, mejora la bondad del ajuste real sin penalizar la inclusión de esta información.
Tabla 1. Comparación de modelos
Para finalizar el ejemplo, se han realizado las predicciones de la proporción de victorias para los equipos que disputarán la temporada 2021-2022 de la Turkish Airlines Euroleague Basketball en función de tres de estos modelos: el clásico de Bill James, el de Clay Davenport y el que relaciona las puntuaciones totales con las obtenidas en los cuartos. Los resultados, omitiendo al AS Mónaco del que no tenemos información histórica en esta competición, se muestra en la Tabla 2.
Tabla 2. Predicciones de la proporción de victorias temporada 2021-2022 según modelo
Los datos muestran que, para todos los modelos, será CSKA el que mayor porcentaje de victorias consiga en la próxima temporada (Play Off y Final Four incluidos), seguidos del F.C. Barcelona y Real Madrid. Pero, teniendo en cuenta que los datos son históricos, y dado que hay equipos que han tendido grandes épocas en la competición, por lo que sus predicciones pueden estar sobreestimadas, debería considerarse como referente aquellos equipos con predicciones superiores al 0.5 de proporción de victorias como posibles candidatos a título de este año.
Como conclusión, indicar que este tipo de modelos nos permiten predecir comportamientos, en este caso la proporción de victorias, teniendo en cuenta cierta información, disponible desde la finalización del encuentro. Sin embargo, existe mucha otra información que puede ser utilizada para tales fines (datos históricos, play-by-play, datos en vivo, etc.) que mejoren la viabilidad de los modelos existentes o respondan a otras preguntas de investigación que el mundo del deporte nos proponga.
Bibliografía
James, B. (1983). The Bill James Baseball Abstract. Ballantine.
Lewis, M. (2004). Moneyball: The art of winning an unfair game. WW Norton & Company.
Jose Miguel Contreras García