I big data analytics rivoluzionano il mondo dello sport

Intervista a: Furio Camillo, Docente di Statistica Aziendale presso l’Università di Bologna e Valentina Adorno, Data Scientist di DataScienceLab

I cinque indicatori chiave per valutare le performance in pista: prestigio e reputazione, difficoltà di conduzione della vettura, internazionalità dei concorrenti, livello formativo delle gare e difficoltà dei circuiti.

Vincere e segnare punti in classifica con i big data analytics è possibile. E non si tratta di una metafora che il mondo del business ha preso in prestito dal mondo dello sport. Si tratta di una realtà con cui società, team e organizzazioni sportive di tutto il mondo stanno facendo i conti. Chi ha detto che gli analytics servono solo per misurare la performance dei clienti di banche e assicurazioni? La relazione tra dati e performance sportiva è visibile anche in campo, come avviene per esempio nel Centro di Ricerca Scientifica di Milan Lab. Oppure in pista come hanno fatto i tecnici della rivista Autosprint che si sono cimentati nell’impresa di creare la “classifica delle classifiche” dei piloti italiani di tutte le categorie.

La classifica delle classifiche

La rivista Autosprint, da 50 anni punto di riferimento internazionale per il mondo del motor-sport, ha voluto affrontare questa impresa, chiedendo di realizzare al Dipartimento di Scienze Statistiche dell’Università di Bologna un modello statistico in grado di elaborare un indice dinamico della performance dei piloti italiani che corrono su pista. Ma come si crea una classifica che tenga conto di tutti i risultati dei piloti che appartengono a categorie diverse, che guidano auto diverse, su circuiti differenti, in circostanze difformi? Forse, una classifica del genere non è mai stata realizzata e rappresenta una vera sfida di calcolo.

La serie di dati presa in considerazione è costituita da 70 campionati (nazionali e internazionali) per un totale di circa 600 piloti italiani e mille e 800 non italiani. Il progetto prevede di confrontare i diversi campionati, attribuendo un indice di performance omogeno.

Le caratteristiche di SAS hanno consentito l’integrazione completa dell’algoritmo statistico usato in tutte le fasi di acquisizione dei dati e hanno permesso la restituzione dei risultati in forma direttamente utilizzabile anche dai non addetti ai lavori.

Alla ricerca del rating corretto

Quanto vale il primo posto ottenuto da Giancarlo Fisichella nella 24 Ore di Le Mans del 2014 rispetto alla vittoria di Gianmaria Bruni nel Campionanto del Mondo Endurance dello stesso anno? E vale di più il secondo posto nella classifica GT o il primo posto nel Campionato Turismo? La “classifica delle classifiche” di Autosprint definisce in modo oggettivo una scala di equivalenza multidimensionale in grado di “convertire” la performance ottenuta in una gara di un campionato con quella di un altro campionato. Una sorta di tasso di cambio che somiglia a quello delle valute mondiali. Infatti, così come il mercato regola le relazioni fra monete, allo stesso modo un comitato di esperti ha attribuito una valutazione comparativa a ciascun campionato.

La soluzione non è stata quella di un criterio diretto di equivalenza fra tutte le coppie di campionati possibili (sarebbero state 2380), ma i campionati sono stati scomposti in una sottoclasse di elementi intangibili che ne definiscono le caratteristiche specifiche e che permettono di impostare un modello di corrispondenza inter-campionato.

Ogni cluster di campionato è stato scomposto in 5 indicatori chiave: prestigio e reputazione, difficoltà di conduzione della vettura, internazionalità dei concorrenti, livello formativo delle gare e difficoltà dei circuiti. A ciascun componente del gruppo di esperti è stato chiesto, in maniera anonima, un voto da 1 a 10 a ciascuno dei 5 attributi per ogni campionato, avendo in mente come benchmark la Formula 1, dove tutti gli attributi sono presenti in misura massima, ossia hanno 10.

Come calcolare il peso di ogni campionato?

La metodologia usata è quella tipica dell’analisi delle matrici a tre vie, adottata proprio in studi multi-giudice e di tipo sensoriale, come ad esempio la valutazione del valore di diversi vini. Proprio sulla componente latente e intangibile che rappresenta il cosiddetto “compromesso”, è stato così costruito un sistema di distanze relative fra ciascuna coppia di campionati. Inoltre, con algoritmi della riduzione della dimensionalità, è stato impostato un indicatore unidimensionale (una retta), sul quale è stato possibile rappresentare tutti i campionati. Questa retta è stata usata per calcolare il peso di ogni campionato. La costruzione della classifica multi-campionato avviene pesando i piazzamenti di ogni gara con un peso diverso per ogni campionato, assegnando - come in Formula Uno - 25 punti al primo posto, 18 al secondo, e così via fino ad arrivare ad 1 punto assegnato alla decima posizione. L’indice complessivo di ogni pilota è il risultato della somma di tutti i punteggi ponderati per il peso di campionato. La somma dei punteggi tende a premiare volutamente la continuità e la quantità di sforzo profuso dai piloti.

Data Management in pista con SAS

La gestione dell’intero processo di ranking è avvenuta usando SAS: dalla fase di acquisizione del dato non-strutturato (derivante direttamente dal testo contenuto nelle classifiche pubblicate su Autosprint), all’applicazione dell’algoritmo di stima delle scale di equivalenza fra campionati, passando per il calcolo della classifica finale dei piloti, aggiornabile settimanalmente. Le caratteristiche di SAS hanno consentito l’integrazione completa dell’algoritmo statistico usato in tutte le fasi di acquisizione dei dati e hanno permesso la restituzione dei risultati in forma direttamente utilizzabile anche dai non addetti ai lavori.

Autosprint Car

Obiettivi

Individuare il migliore pilota italiano del 2014 tramite gli algoritmi SAS.

Soluzione

Analytics Insight

Analytics Insights

Scopri di più sugli Analytics grazie ad Articoli, white paper e infografiche.

Articolo tratto da

itasascom Magazine - Digital Edition

1 / 2015

The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies. Per questo articolo: Copyright © SAS Institute Inc. All Rights Reserved. L'articolo non è riproducibile senza il suo consenso.

Back to Top