« Lâanalyse de la donnĂ©e est un outil dâaide Ă la dĂ©cision dans le monde de lâentreprise depuis une vingtaine dâannĂ©es. On a rĂ©flĂ©chi Ă comment lâintĂ©grer chez nous, en voulant rĂ©pondre Ă ces questions simples : comment mieux sâentraĂźner pour ĂȘtre meilleur en match ? Comment battre notre prochain adversaire ? »1
Ces propos sont ceux de Fabien GalthiĂ©, sĂ©lectionneur de lâĂ©quipe de France de rugby pour commenter le partenariat entre le XV de France et lâentreprise SAS2, spĂ©cialisĂ©e dans lâanalyse de donnĂ©es. GalthiĂ© nâest pas le seul technicien Ă avoir eu lâidĂ©e dâutiliser la data pour amĂ©liorer les performances de son Ă©quipe, et, cette nouvelle façon dâenvisager le sport se retrouve aussi bien dans le rugby que dans tous les autres sports, quâils soient collectifs ou individuels.
Cette mĂ©thode fait ses preuves, puisque par exemple, fin 2021, le dĂ©corticage du jeu nĂ©o-zĂ©landais par Fabien GalthiĂ© et ses analystes avait ainsi permis de constater que les Ă©quipes ayant perdu contre les All Blacks avaient pour point commun de trop conserver le ballon, et de sâexposer sur les pertes de balle3, ce qui permit aux Bleus, en adaptant leur stratĂ©gie, de remporter ce match de prestige face Ă cette Ă©quipe de lĂ©gende.
Mais concrĂštement, comment on fait pour utiliser la data dans le sport? Câest ce que lâon va voir dans ce deuxiĂšme tunnel! Au programme du jour :
đą La conceptualisation du sport en donnĂ©es
đ Un peu dâhistoire sur lâanalyse de donnĂ©es dans le sport
đŹ âEffet bulleâ, Clustering, analyses prĂ©dictives ou prescriptives, et encore plein dâexplications sur les concepts clĂ©s de la data dans le sport
đ Christopher Froome, Lionel Messi, Alain Prost, bref, on va aussi parler sport.
Avant de commencer, jâaimerais vous recommander un livre qui mâa Ă©normĂ©ment servi dans lâĂ©criture de cet article, et qui mâa donnĂ© lâidĂ©e de lâĂ©crire : Data & Sport - La RĂ©volution Ă©crit par lâancien rugbyman Yanick Nyanga et la Data Scientist AurĂ©lie Jean, câest un rĂ©gal â€ïž
Traduire le sport en data, câest vraiment possible?
Câest vrai quâon peut se poser la question. Dans lâimaginaire collectif, on imagine que la data est quelque chose qui Ă©moustille surtout les geeks un peu frĂȘles et pas trĂšs charismatiques (dont certains vous mettent mĂȘme dâinterminables tunnels sur le sujetâŠ), assez loin de lâimage du sportif beau, charismatique mais pas forcĂ©ment trĂšs fort en maths. Mais en rĂ©alitĂ© aujourdâhui tous les sportifs de haut niveau sont plongĂ©s dans les data avec des analyses toujours plus prĂ©cises de leurs performances physiques, techniques, tactiques, etc. Sauf que pour passer dâun terrain de rugby ou de foot Ă un ordinateur, il y a tout un chemin, que nous allons dĂ©tailler.
Dâabord, faire du sport quelque chose de âdataĂŻsableâ đ
Pour passer du terrain de foot ou de rugby Ă une base de donnĂ©es, il faut dâabord rĂ©ussir Ă fournir aux machines des choses quâelles peuvent comprendre. Pour ce faire, on va crĂ©er des âpoints de donnĂ©esâ (ou des âdata pointsâ pour faire plus âtechâ). Les data points, ce sont toutes les composantes du sport que lâon va analyser. Ăa peut ĂȘtre un joueur, un match, une compĂ©tition, une actionâŠ
Une fois un data point dĂ©fini, on lui associe des mĂ©tadonnĂ©es (ou metadata) pour le dĂ©crire quantitativement et qualitativement. Par exemple si le data point auquel on sâintĂ©resse est un sportif ou une sportive, on peut ajouter des metadata tels que son Ăąge, son poids, sa taille, le nombre de trophĂ©es quâil ou elle a remportĂ©s, sa vitesse maximale, etc.
Ensuite, tous les data points sont regroupés dans des tables de données (par exemple, on va classer tous les joueurs dans une table, tous les matchs dans une autre table, etc.) qui sont liés les unes aux autres.
Et enfin toutes ces tables sont elles-mĂȘmes regroupĂ©es dans un jeu de donnĂ©es, qui servira de base Ă toutes les analyses permettant de rĂ©pondre Ă des questions telles que : Quelle Ă©quipe a le plus de chance de remporter un championnat ? Quelle rĂ©gime alimentaire est le plus adaptĂ© Ă un sportif pour amĂ©liorer sa forme physique? Quelle est la probabilitĂ© quâune blessure intervienne pendant une compĂ©tition?
Ensuite, collecter et analyser la donnĂ©e đ
Quand on crĂ©e un data point, câest facile dâavoir des metadata telles que lâĂąge ou le poids, mais pour la vitesse maximale ou le nombre de kilomĂštres parcourus par match par exemple, câest plus compliquĂ©. Cela passe aujourdâhui par les objets connectĂ©s qui ont fait une irruption massive dans les sports de haut niveau. Quâil sâagisse de montres connectĂ©es utilisĂ©es pour observer le rythme cardiaque au repos ou la qualitĂ© du sommeil, des capteurs portĂ©s pendant les matchs et les entrainements pour Ă©valuer la respiration, les niveaux de fatigue, les camĂ©ras qui Ă©valuent les gestes rĂ©alisĂ©s, etc.
En compĂ©tition, en entrainement, au repos, les sportifs et les sportives produisent une quantitĂ© gigantesque de donnĂ©es, qui est mesurĂ©e Ă lâaide dâobjets connectĂ©s avant dâĂȘtre organisĂ©e en data points, tables de donnĂ©es et jeux de donnĂ©es.
Une fois la donnĂ©e collectĂ©e et organisĂ©e, vient alors la strate analytique. Ătymologiquement, le terme âanalyseâ veut dire âdĂ©-lier de haut en basâ , il sâagit de la dĂ©structuration dâun sujet, et donc, ici de la dĂ©structuration du jeu de donnĂ©es. Câest-Ă -dire quâon va essayer de trouver des liens entre les diffĂ©rentes donnĂ©es que lâon a en cherchant des corrĂ©lations, des biais, des patterns, etc. pour mieux expliquer un phĂ©nomĂšne.
Le baseball, sport pionnier âŸ
Cette approche de lâutilisation de la donnĂ©e dans le sport remonte Ă un monde oĂč les ordinateurs nâexistaient pas encore. Nous sommes en 1856 dans la ville de New York, et Henry Chadwick, un journaliste sportif du New York Times spĂ©cialiste du cricket va inventer lâanalytique sportive. Pour essayer de faire comprendre aux amĂ©ricains un nouveau sport pas encore vraiment populaire Ă lâĂ©poque - le baseball -, Henry Chadwick a commencĂ© a publiĂ© des tableaux de chiffres dĂ©crivant quantitativement dans les moindres dĂ©tails tous les matchs de baseball. Cela lui vaut encore aujourdâhui le surnom de âpĂšre du baseballâ, rien que ça. AprĂšs Henry Chadwick, des statisticiens comme Alain Roth ou Bill James ont fait rentrer le sport dans lâĂšre de la modĂ©lisation prĂ©dictive en utilisant des algorithmes complexes pour trouver des rĂ©ponses sur le fonctionnement du sport. Et puis la fin de cette rĂ©volution sâest faite par lâadoption de ces mĂ©thodes par les entraineurs (et donc par ricochet les joueurs). On pense notamment Ă Billy Beane, manager de lâĂ©quipe de baseball des Oakland Athletics, incarnĂ© par Brad Pitt le film Money ball (et oui, les geeks aussi peuvent avoir une belle gueule), qui utilise une approche statistique pour faire gagner son Ă©quipe malgrĂ© des budgets trĂšs rĂ©duits.
La data, alliée ou ennemie du sport?
La data pour amĂ©liorer les performances et soigner les organismes đȘ
Le 18 mars 2023, Ă 41 et 161 jours, Zlatan IbrahimoviÄ annonce sa retraite sportive aprĂšs plus de 25 ans de carriĂšre Ă haut niveau. Ce niveau de longĂ©vitĂ© est impressionnant et a Ă©tĂ© permis par un niveau de prĂ©paration exceptionnel4 oĂč tout est analysĂ© au travers de la data : le sommeil, lâalimentation, les matchs, les entrainements, la rĂ©cupĂ©ration, etc.
On pourrait faire une liste interminables des techniques de traitement de donnĂ©es utilisĂ©es par les sportifs et les sportives de haut niveau, mais ça serait trop long (mĂȘme pour un tunnel). Jâen ai arbitrairement sĂ©lectionnĂ© 3 :
đŽââïž La mĂ©thode des âgains marginauxâ utilisĂ©e par David Brailsford avec lâĂ©quipe de cyclisme Sky. Cette mĂ©thode consiste Ă analyser tous les aspects du sport, en utilisant tous les data points disponibles et de chercher Ă tous les amĂ©liorer de 1% pour amĂ©liorer significativement la performance globale. Câest notamment ce qui permit Ă Christopher Froome de remporter 3 Tours de France entre 2013 et 2017.
đ Le clustering pour prĂ©dire les blessures. Le clustering est une mĂ©thode statistique qui consiste Ă regrouper des data points en diffĂ©rents groupes selon leur similitude. Par exemple, les Ă©quipes de NBA utilisent toutes les images de matchs capturĂ©es par le systĂšme SportVU5 pour Ă©tablir des profils de joueurs selon leurs gestes et leurs dĂ©placements en match et leur associer des probabilitĂ©s de blessure selon diffĂ©rents Ă©vĂ©nements6.
âœđ Les analyses prĂ©dictives pour savoir quels joueurs ou joueuses recruter dans une Ă©quipe. Il existe diffĂ©rents algorithmes qui permettent de prĂ©dire un Ă©vĂ©nement futur Ă partir dâinformations du passĂ©, lâun des plus cĂ©lĂšbres Ă©tant le rĂ©seau de neurones rĂ©currents (magnanime, je vous passe lâexplication lourde, mais pour les plus tĂ©mĂ©raires, elle se trouve ici). Câest le genre de techniques utilisĂ©es par le club de foot du Toulouse FC pour recruter ses joueurs depuis quelques annĂ©es avec une rĂ©ussite importante.
Mais comme dâhabitude, de nombreux Ă©cueils Ă Ă©viter â ïž
Vous vous en doutez, aprĂšs lâapologie de lâusage de la data dans le sport, il y a Ă©videmment une sĂ©rie de limites Ă Ă©voquer. Dâabord il y a une question presque philosophique Ă se poser : Utiliser la data pour tout prĂ©dire et optimiser nâest-il pas une menace pour le sport, qui, par nature est imprĂ©visible (et câest dâailleurs ce qui le rend si beau)? La rivalitĂ© entre les pilotes de Formule 1 Alain Prost, qui analysait tout ce qui lâentourait Ă chaque course pour minimiser les risques et Ayrton Senna qui roulait toujours Ă 100% âau feelingâ pourrait ĂȘtre lâillustration de ces 2 visions que lâon peut avoir du sport.
Quelle que soit la rĂ©ponse Ă cette question, si on souhaite utiliser la data dans le sport, cela sâaccompagne par un grand nombre de risques Ă absolument Ă©viter :
đź Lâeffet âbulleâ pourrait enfermer le sport Ă tout jamais. DĂ©veloppĂ© par Eli Pariser, lâeffet bulle rĂ©side dans le fait que les algorithmes de filtrage dâinformation ont tendance Ă ne filtrer que des informations proches les unes des autres, enfermant les utilisateurs dans une vision du monde trĂšs rĂ©duite. Cela sâapplique au sport, car si on ne fait quâanalyser le sport sous le prisme des donnĂ©es passĂ©es, on ne laisse pas la place aux rĂ©volutions. Câest en ne regardant pas la data passĂ©e que le FC Barcelone a acceptĂ© de recruter Lionel Messi Ă lâĂąge de 13 ans malgrĂ© des courbes de croissance bien infĂ©rieure Ă la norme ou que Dick Fosbury a inventĂ© la technique dite du âFosbury-flopâ en saut en hauteur.
đ€ Lâindividualisation des analyses pourrait menacer lâesprit des sports collectifs. Les joueurs/joueuses sont des data points pour lesquels on rĂ©colte beaucoup plus de metadata que les Ă©quipes, et, Ă force dâanalyser leurs propres performances chiffrĂ©es sans considĂ©ration dâĂ©quipe, ils pourraient oublier lâessence mĂȘme de leur sport.
đ« Des problĂšmes de collecte de donnĂ©es ou dâanalyses pourraient augmenter les mauvaises dĂ©cisions. Comme Ă chaque fois lorsque lâon parle de data, sans rigueur on peut commettre une infinitĂ© dâerreurs. Des erreurs classiques comme la confusion entre cause et corrĂ©lation ou lâutilisation de donnĂ©es fausses car mal rĂ©coltĂ©es pourrait mener les coachs Ă prendre des dĂ©cisions absurdes.
Jouer le jeu de la data pour augmenter le sport
Le monde des objets connectĂ©s est dĂ©jĂ lĂ , celui du stockage gigantesque de la donnĂ©es aussi. Lâusage de la data dans le sport est dans lâĂšre du temps et ne va pas dĂ©naturer lâessence-mĂȘme du sport. Oui, mais Ă condition dâĂ©viter de tomber dans le piĂšge de la donnĂ©e qui serait une utilisation systĂ©matique sans rĂ©flexion et sans recul. Il convient de former tous les acteurs, des coachs aux athlĂštes en passant par les dirigeants pour conserver lâesprit du sport tout en amĂ©liorant les performances.
Lâautre enjeu est celui de lâexplicabilitĂ© des algorithmes. LâexplicabilitĂ©7 est une discipline qui vise Ă construire des mĂ©thodes numĂ©riques pour extraire la logique de fonctionnement d'un algorithme. Le sens de lâhistoire est dâutiliser des algorithmes toujours plus complexes, permettant de rĂ©pondre Ă Ă©normĂ©ment de questions. Il faut toujours essayer de comprendre ce qui est Ă lâoeuvre derriĂšre les algorithmes que lâon utilise. Ne pas se contenter de dire âTel joueur a une probabilitĂ© de X% de se blesserâ, mais dire âTel joueur a une probabilitĂ© de X% de se blesser, car la probabilitĂ© de se blesser pour un joueur de cette catĂ©gorie est corrĂ©lĂ©e au nombre de matchs jouĂ©s par an et il a atteint sa limiteâ. Câest ce qui permettra aux coachs de prendre les meilleurs dĂ©cisions, de repĂ©rer les Ă©cueils potentiels de la data mais aussi dâexpliquer leurs choix aux joueurs et au public.
Ăa y est, câest fini, dĂ©jĂ 2 tunnels! đđ Celui-lĂ me tenait particuliĂšrement Ă coeur car jâaime presque autant le sport que jâaime la data. JâespĂšre que ce tunnel ne fut pas trop fastidieux et quâil vous a plu, nâhĂ©sitez pas Ă le partager autour de vous pour tous et toutes les passionnĂ©-e-s de sport (ou de data), et, si ce nâest pas encore fait, abonnez-vous!!
Ă trĂšs vite pour un nouveau tunnel â€ïž
Passionnant et trĂšs clair ! Du coup petite question: sur un maillot de rugby on voit un rectangle dans le dos, est-ce lâendroit de la puce qui relĂšve les donnĂ©es?
L'utilisation de la data dans un contexte sportif s'étend au-delà de l'analyse des performances des sportifs : customer Relationship et management des fans, gestion commerciale des stades (pricing, stock de places disponibles), évaluation financiÚre de l'image des sportifs ou des équipes, gestion financiÚre des organisations etc... Il faudra écrire une suite à l'occasion !