Il Torino di Juric spiegato dal professor xG
Toro News dà il benvenuto sulle proprie colonne a Lorenzo Greggio. I numeri non sono tutto, ma spiegano molte cose: lo capiremo grazie a Lorenzo, esperto e appassionato data scientist che ci proporrà contenuti di alto livello sul Toro, basati proprio sui dati e impreziositi da elaborazioni grafiche. Prendetevi 10 minuti per leggere i suoi articoli, non ve ne pentirete. Buona lettura.
La scienza dei dati è una disciplina che si occupa fondamentalmente di trovare relazioni, predirre esiti e consigliare azioni da intraprendere in funzione dei dati, cioè di quel che è già successo. Dai suggerimenti di cross selling nei carrelli dei siti e-commerce all’approvazione di un finanziamento, dai robottini pulisci-pavimenti agli assistenti vocali del nostri smartphone, non vi è ormai ambito della vita che sfugga al potere degli algoritmi.
Non stupisce dunque come negli ultimi anni nel calcio, anche se in sensibile ritardo rispetto ad altri sport professionistici di matrice più oltreoceanica quali il basket ed il football americano, la figura del data scientist sia sempre più apprezzata: dall’analisi tattica a quella delle prestazioni fisiche dei giocatori della squadra e degli avversari, dallo scouting alla crescita delle giovani leve fino ad altre attività più di dominio business all’interno del club, analizzare le performance sulla base dei dati storici è diventato fondamentale per guadagnare (o mantenere) un quid di competitività rispetto agli avversari.
CENNI SUI MODELLI xG
Alla ricerca di una metrica che rappresenti un fedele indicatore della produzione offensiva di una squadra, gli analisti hanno studiato un modello che potesse andare oltre il banale conteggio del numero dei tiri (peraltro non indicativo) o dei gol (la cui rarità mal si presta ad analisi statistiche). Il modello expected goal (xG) assegna ad ogni tiro un punteggio tra 0 e 1 che rappresenta la probabilità (ad esempio 0.01 vuol dire 1% di probabilità) che lo stesso tiro si tramuti in goal, calcolata in base ai dati storici di tiri “simili”. Cosa voglia dire somiglianza in questo contesto dipende dal modello considerato: esistono diversi modelli xG (ogni provider di dati quali Opta o StatsBomb ha un proprio modello), dai più primitivi che consideravano solo la posizione di campo dei tiri a quelli più avanzati che considerano variabili più complesse quali situazioni di gioco, numero di giocatori tra la porta ed il tiratore e via andare. Sui modelli xG è poi stato creato un ecosistema molto solido di altre variabili derivate (xA, xT, catene xG, controllo del campo) che è pane quotidiano degli analisti calcistici. Ma questi modelli… sono giusti? “Tutti i modelli sono sbagliati, ma alcuni sono utili” diceva George Box (illustre statistico). In particolare, se proviamo a paragonare gli xG di due tiri che magari abbiamo visto in tv, spesso ci troveremo in disaccordo col modello; la forza del modello sta invece nella generalizzazione, cioè più tiri consideriamo insieme più il modello è accurato. Per i più interessati, in particolare è stata mostrata una forte correlazione tra la differenza tra xG prodotti e concessi e la posizione in classifica di una squadra. In seguito andremo a considerare i dati xG pubblicati sul sito fbref.com, che basa le sue elaborazioni sui dati Opta.TREND xG
Ci proponiamo ora di analizzare alcune caratteristiche del Torino di Juric attraverso l’analisi degli xG. L’universo temporale considerato è l’intera stagione e mezza passata col condottiero croato alla guida della compagine granata. Cominciamo ad allestire una prima visualizzazione. Sull’asse orizzontale mettiamo in fila tutte le partite di campionato del periodo considerato e tracciamo una linea verticale per marcare l’inizio della stagione corrente.DIFFERENZIALI xG
Procediamo adesso ad un’analisi più approfondita dei differenziali che abbiamo introdotto poc’anzi. Allestiamo uno spazio di lavoro in cui andremo a marcare i valori dei differenziali xG ed xG concessi per ogni partita disputata. Sull’asse orizzontale segneremo i valori di differenziale xG e su quello verticale i valori di differenziale xG concesso. Etichettiamo gli assi in verde per i valori ad interpretazione positiva e in rosso per quelli ad interpretazione negativa (come detto prima, per i valori di differenziale xG concessi sull’asse verticale la logica è ribaltata: un valore di SEGNO positivo vuol dire che abbiamo concesso più di quanto ci si aspettasse ed ha quindi un’accezione negativa, da cui le etichette rosse).xG NELL’ARCO DELLA PARTITA
Abbiamo studiato l’evoluzione di xG ed xG concessi nell’arco temporale considerato aggregando i dati per ogni giornata di campionato. Procediamo ora a cambiare la risoluzione temporale dei dati, andando a considerare xG ed xG concessi nell’arco temporale della partita. Prepariamo dunque un nuovo layout: sull’asse orizzontale avremo il tempo in partita (dal primo minuto fino al recupero), tracciamo due linee verticali come riferimento per l’intervallo ed il recupero.CONCLUSIONI
Abbiamo iniziato il nostro viaggio negli xG visualizzando e comparando i trend relativi alle metriche grezze di alcune squadre di Seria A, confermando l’idea di un Torino più solido difensivamente che pericoloso offensivamente ed evidenziando una tendenza non migliorativa rispetto alla stagione passata. Abbiamo successivamente introdotto il concetto di differenziali ed analizzato le performance di squadra in questo contesto, rilevando come per il Torino esistano principalmente due tipi opposti di prestazione: uno che tende verso l’overperformance difensiva e l’underperformance offensiva - contro le difese a 4 - e l’altro che tende verso l’underperformance difensiva e l’overperformance offensiva - contro le difese a 3. Abbiamo infine analizzato l’andamento cumulativo degli xG in partita, confermando le difficoltà del team di Juric negli ultimi minuti di partita. Se vi state chiedendo se sia corretto considerare queste conclusioni come oro colato, la risposta è NO. Abbiamo semplicemente individuato delle correlazioni (correlazione non significa causalità) e lo spettro della nostra analisi è piuttosto ristretto giacchè abbiamo considerato un’unica metrica. Sarebbe più corretto considerare queste conclusioni come ipotesi da verificare ulteriormente tramite altri layer di analisi. Diffidiamo dunque di chi trae conclusioni definitive, soprattutto sulla base di analisi sommarie e non esaustive, e ricordiamoci che l’inestimabile utilità della scienza dei dati tante volte si risolve nel generare interrogativi più che nel fornire risposte.Una vita tra la passione per il calcio e l'ossessione per i dati, alla disperata ricerca di un senso nelle cose sventolano con orgoglio il vessillo della milizia nerd. Cultore dello spazio-tempo, da Ventura a Picard. Musicante all'occorrenza. Di solito rimango, ma se vado via lo faccio con un tunnel. Disclaimer: gli opinionisti ospitati da Toro News esprimono il loro pensiero indipendentemente dalla linea editoriale seguita dalla Redazione del giornale online, il quale da sempre fa del pluralismo e della libera condivisione delle opinioni un proprio tratto distintivo.
© RIPRODUZIONE RISERVATA