00:55 min
DATI IN PILLOLE

Il Torino di Juric spiegato dal professor xG

Lorenzo Greggio
Il primo appuntamento con la rubrica di Lorenzo Greggio: cosa è il modello degli xG e come può aiutarci ad analizzare la squadra granata

Toro News dà il benvenuto sulle proprie colonne a Lorenzo Greggio. I numeri non sono tutto, ma spiegano molte cose: lo capiremo grazie a Lorenzo, esperto e appassionato data scientist che ci proporrà contenuti di alto livello sul Toro, basati proprio sui dati e impreziositi da elaborazioni grafiche. Prendetevi 10 minuti per leggere i suoi articoli, non ve ne pentirete. Buona lettura. 

La scienza dei dati è una disciplina che si occupa fondamentalmente di trovare relazioni, predirre esiti e consigliare azioni da intraprendere in funzione dei dati, cioè di quel che è già successo. Dai suggerimenti di cross selling nei carrelli dei siti e-commerce all’approvazione di un finanziamento, dai robottini pulisci-pavimenti agli assistenti vocali del nostri smartphone, non vi è ormai ambito della vita che sfugga al potere degli algoritmi.

Non stupisce dunque come negli ultimi anni nel calcio, anche se in sensibile ritardo rispetto ad altri sport professionistici di matrice più oltreoceanica quali il basket ed il football americano, la figura del data scientist sia sempre più apprezzata: dall’analisi tattica a quella delle prestazioni fisiche dei giocatori della squadra e degli avversari, dallo scouting alla crescita delle giovani leve fino ad altre attività più di dominio business all’interno del club, analizzare le performance sulla base dei dati storici è diventato fondamentale per guadagnare (o mantenere) un quid di competitività rispetto agli avversari.

CENNI SUI MODELLI xG

—  

Alla ricerca di una metrica che rappresenti un fedele indicatore della produzione offensiva di una squadra, gli analisti hanno studiato un modello che potesse andare oltre il banale conteggio del numero dei tiri (peraltro non indicativo) o dei gol (la cui rarità mal si presta ad analisi statistiche).

Il modello expected goal (xG) assegna ad ogni tiro un punteggio tra 0 e 1 che rappresenta la probabilità (ad esempio 0.01 vuol dire 1% di probabilità) che lo stesso tiro si tramuti in goal, calcolata in base ai dati storici di tiri “simili”. Cosa voglia dire somiglianza in questo contesto dipende dal modello considerato: esistono diversi modelli xG (ogni provider di dati quali Opta o StatsBomb ha un proprio modello), dai più primitivi che consideravano solo la posizione di campo dei tiri a quelli più avanzati che considerano variabili più complesse quali situazioni di gioco, numero di giocatori tra la porta ed il tiratore e via andare.

Sui modelli xG è poi stato creato un ecosistema molto solido di altre variabili derivate (xA, xT, catene xG, controllo del campo) che è pane quotidiano degli analisti calcistici.

Ma questi modelli… sono giusti? “Tutti i modelli sono sbagliati, ma alcuni sono utili” diceva George Box (illustre statistico). In particolare, se proviamo a paragonare gli xG di due tiri che magari abbiamo visto in tv, spesso ci troveremo in disaccordo col modello; la forza del modello sta invece nella generalizzazione, cioè più tiri consideriamo insieme più il modello è accurato. Per i più interessati, in particolare è stata mostrata una forte correlazione tra la differenza tra xG prodotti e concessi e la posizione in classifica di una squadra.

In seguito andremo a considerare i dati xG pubblicati sul sito fbref.com, che basa le sue elaborazioni sui dati Opta.

TREND xG

—  

Ci proponiamo ora di analizzare alcune caratteristiche del Torino di Juric attraverso l’analisi degli xG. L’universo temporale considerato è l’intera stagione e mezza passata col condottiero croato alla guida della compagine granata.

Cominciamo ad allestire una prima visualizzazione. Sull’asse orizzontale mettiamo in fila tutte le partite di campionato del periodo considerato e tracciamo una linea verticale per marcare l’inizio della stagione corrente.

Sull’asse verticale avremo gli xG.

Procediamo ora ad inserire i dati nel grafico

e ad unire i pallini con una linea.

Possiamo notare nel tempo un trend di decrescita dei picchi ed un addensamento delle valli soprattutto nella stagione appena iniziata, ma non c’è una chiara linea di tendenza. Sostituiamo la linea spezzettata con una linea di tendenza,

poi cancelliamo i puntini e aggiungiamo in trasparenza la linea di tendenza delle altre squadre di Serie A.

Notiamo come il Torino non brilli come produzione offensiva se paragonato con le altre squadre. Si nota anche una certa involuzione nel corso di questa stagione, comune peraltro a molte altre compagini (nella stagione in corso la produzione offensiva in Serie A è calata di circa il 14% se paragonata con quella dello stesso periodo nella stagione scorsa).

Diamo anche uno sguardo alla situazione opposta: gli xG concessi dal Torino. Come gli xG sono indice di produzione offensiva, gli xG sono indice di produzione offensiva concessa agli avversari, quindi di capacità difensiva.

La solidità difensiva è sempre stata un cardine del Torino di Juric; anche in questo caso non possiamo però fare a meno di notare una situazione di generale peggioramento (in questo caso misuriamo gli xG concessi quindi una linea che sale non è un buon segno).

Possiamo anche sovrapporre le curve di xG e di xG concessi:

A conferma di quanto già detto in precedenza, notiamo come a partire dalla seconda metà della scorsa stagione le due curve tendano ad invertire la loro posizione reciproca: passiamo da una squadra che produceva più di quanto concedeva ad una che concede più di quanto produce.

Per dare contesto più ampio e farsi un’idea, seguono le visualizzazioni relative a una squadra di successo come l’Inter

e a una squadra meno performante come la Salernitana:

In quest’ultimo caso sono evidenti gli effetti della cura Nicola nella seconda parte della scorsa stagione, anche se la stagione corrente tende a riallargare la forbice tra xG prodotti e concessi.

Torniamo ora a considerare gli xG prodotti, focalizzandoci su una finestra di 6 partite.

Dal grafico evinciamo che contro la Roma il Torino ha prodotto poco più di 1 xG. Cosa vuol dire? E’ tanto? E’ poco? Vogliamo trovare un modo di dare più contesto alla performance xG di una squadra: l’idea è di paragonarla con qualche sorta di valore atteso in funzione dell’avversario e perchè no, dello stato di forma in cui versa l’avversario nel periodo in cui lo incontriamo.

Andiamo ad integrare la nostra visualizzazione aggiungendo con una crocetta il valore medio di xG concessi dall’avversario di turno in una finestra di tempo di 5 giornate centrata sulla giornata ma che la esclude. Ad esempio, se incontrassimo la Sampdoria alla giornata 10 prenderemmo i dati di xG concessi dalla Sampdoria nelle giornate dalla 8 alla 12 (escludendo la 10) e ne calcoleremmo la media.

Procediamo adesso a disegnare delle colonnine che uniscano pallini e crocette, colorandoli di verde quando il pallino sta sopra e di rosso altrimenti (si noti che questa logica viene invertita esaminando gli xG concessi). Chiameremo (non senza licenze) queste quantità differenziali. Cancelliamo poi pallini e crocette

e andiamo ad integrare le visualizzazione generali di xG ed xG concessi con i differenziali.

L’interpretazione è presto fatta: più verde vediamo, meglio è!

Di nuovo, per farsi un’idea più esaustiva è utile comparare il grafico con quello di una squadra al top come il Napoli

e con quello di una squadra meno qualitativa come lo Spezia:

DIFFERENZIALI xG

—  

Procediamo adesso ad un’analisi più approfondita dei differenziali che abbiamo introdotto poc’anzi.

Allestiamo uno spazio di lavoro in cui andremo a marcare i valori dei differenziali xG ed xG concessi per ogni partita disputata. Sull’asse orizzontale segneremo i valori di differenziale xG e su quello verticale i valori di differenziale xG concesso. Etichettiamo gli assi in verde per i valori ad interpretazione positiva e in rosso per quelli ad interpretazione negativa (come detto prima, per i valori di differenziale xG concessi sull’asse verticale la logica è ribaltata: un valore di SEGNO positivo vuol dire che abbiamo concesso più di quanto ci si aspettasse ed ha quindi un’accezione negativa, da cui le etichette rosse).

Andiamo ora a tracciare i punti, ogni punto è una partita.

Il grafico è suddiviso in 4 quadranti. Utiilizzando i punti cardinali per identificare i quadranti, possiamo notare come i quadranti nord-ovest e sud-est (NO e SE da qui in poi) contengano le performance concordi della squadra; il quadrante NO, che potremmo definire il quadrante cattivo, contiene le performance concordemente negative (sia dal punto di vista della produzione offensiva, cioè dell’attacco, sia dal punto di vista di quanto si è concesso, cioè della difesa), mentre quello SE può essere definito il quadrante buono, con prestazioni concordemente positive. I quadranti NE e SO per contrapposizione contengono prestazioni discordi, in cui se l’attacco ha performato bene la difesa non ha fatto altrettanto (quadrante NE) o viceversa (quadrante SO).

Andiamo quindi ad aggiornare i riferimenti della visualizzazione per renderla più comprensibile, identificando i quadranti per tipologia di prestazione, rimuovendo il reticolato ed introducendo dei riferimenti circolari nei quadranti concordi per valutare la magnitudo della performance (nei quadranti discordi l’interpretazione sarebbe ambigua)

Procediamo ora a sovraimporre una heatmap ai nostri punti, che lasciamo nella prima figura per dare un’idea della relazione tra questi e la heatmap ma che poi abbandoniamo.

In ultimo, rendiamo un po’ più “severa” la heatmap, in modo che evidenzi solo le zone in cui i dati si concentrano maggiormente.

Il profilo ha una forte tendenza centrale, che significa che il Torino è una squadra che mediamente tende a produrre quanto ci si aspetta che conceda l’avversario e che tende a concedere quanto ci si aspetta che produca l’avversario.

Riusciamo però a riconoscere due sotto-trend che tendono verso il quadrante NE e SO, quindi verso quadranti neutri dalle prestazioni discordi. Questo significa in generale che se la prestazione offensiva è buona ne risente quella difensiva e viceversa.

Al solito, il paragone con il profilo di un’altra squadra è indispensabile. Prendiamo per esempio l’Udinese

e vediamo come la stessa tendenza centrale del Torino si manifesti in maniera completamente antitetica; i sotto-trend tendono ai quadranti concordi (NO e SE), facendo dell’Udinese una squadra “all-in”: o va tutto bene o va tutto male.

Procedendo con i paragoni, ci aspettiamo dunque che il profilo di performance di una squadra di successo tenda verso il quadrante buono (SE) e quello di una squadra più in difficoltà tenda verso il quadrante cattivo (NO).

Andiamo a verificare la nostra ipotesi con i profili di Napoli

e Spezia:

… funziona!

Tornando al profilo di performance dei granata, è come se ci fosse una doppia anima nel Torino: una che tende a prestazioni offensive positive sacrificando qualcosa in difesa (quadrante NE) e una che tende a prestazioni difensive positive sacrificando qualcosa in attacco (quadrante SO).

Un caso? O esiste un fattore al variare del quale varia anche la performance del Torino?

Proviamo ad indagare oltre. La prima cosa che viene in mente è ovviamente la nuova stagione sportiva. Visto che stiamo considerando i dati relativi ad una stagione e mezza è lecito supporre, soprattutto nel caso del Torino che ha visto una mezza rivoluzione nella rosa, che l’impatto della nuova stagione abbia generato dei cambiamenti.

Il profilo relativo alla stagione scorsa riprende quello globale, mentre quello della stagione corrente tende, rispetto a quello della stagione precedente, a concentrare le prestazioni in un limbo tra i due quadranti a ovest, ovvero quadranti dalla prestazione offensiva negativa.

In realtà, benchè il profilo cambi (e non positivamente) tra le due stagioni non c’è quella ripartizione tra quadrante SO e NE che dovremmo vedere se le due anime del Torino fossero imputabili al cambio di stagione sportiva.

Alla ricerca del fattore discriminante, possiamo provare con motivi di ordine tattico, in base alle caratteristiche del modulo avversario. Analizziamo dunque il profilo di performance in base a quello che probabilmente è il più grande discrimine tattico nel calcio moderno: difese a 3 e difese a 4.

Bingo! Sembra proprio che abbiamo trovato il nostro fattore discriminante: le prestazioni del Torino contro la difese a 3 si trovano nel quadrante NE, mentre quelle contro la difesa a 4 nel quadrante SO. Quindi, contro le difesa a 3 le prestazioni del Torino tendono a essere buone offensivamente e meno buone difensivamente, mentre nel caso di avversari con difesa a 4 il rapporto si inverte.

Se ci soffermiamo con maggiore attenzione sulle prestazioni contro difese a 4, notiamo che anche qui paiono esserci due distinti gruppi di prestazioni, uno tendente al quadrante buono ed uno tendente al quadrante cattivo.

Proviamo a ripartire nuovamente il grafico esaminando come ulteriore discrimine tattico il numero di attaccanti della squadra avversaria:

Benchè la separazione non sia così netta riprende effettivamente i due sotto trend evidenziati: nell’ambito di avversari con difesa a 4, il Torino trova più difficoltà contro sistemi con unica punta centrale (tendenza al quadrante cattivo) che contro sistemi con doppia punta centrale (tendenza al quadrante buono).

xG NELL’ARCO DELLA PARTITA

—  

Abbiamo studiato l’evoluzione di xG ed xG concessi nell’arco temporale considerato aggregando i dati per ogni giornata di campionato. Procediamo ora a cambiare la risoluzione temporale dei dati, andando a considerare xG ed xG concessi nell’arco temporale della partita.

Prepariamo dunque un nuovo layout: sull’asse orizzontale avremo il tempo in partita (dal primo minuto fino al recupero), tracciamo due linee verticali come riferimento per l’intervallo ed il recupero.

Sull’asse verticale andremo ad indicare la percentuale cumulativa di xG (o di xG concessi) per minuto di gara.

Poniamo a titolo esemplificativo che il Torino abbia prodotto 1000 xG nella stagione e mezza considerata. Calcoliamo il numero di xG prodotti entro il primo minuto delle partite, ad esempio 10. Al primo minuto avremo una percentuale di 1%. Calcoliamo poi il numero di xG prodotti entro il secondo minuto, ad esempio 25. Al secondo minuto segneremo 2.5%, e così via fino al termine della partita. Avremo una cosa simile:

Uniamo i punti con delle linee e creiamo una linea per ogni squadra della Serie A.

Possiamo ovviamente fare la stessa con gli xG concessi

ed ottenere un profilo cumulativo sovrapponendo le due curve:

L’interpretazione di questa visualizzazione è semplicissima.

C’è una specie di ruscello delimitato dalle due linee. A noi interessano i periodi della partita in cui questo ruscello si espande e dove si contrae. Le regole di interpretazione sono le seguenti:

1 - il ruscello si espande e la linea bianca (xG) è il limite superiore OPPURE il ruscello si contrae e la linea lime (xG concessi) è il limite superiore : periodo di maggiore produzione offensiva (in proporzione al totale xG prodotto);

2 - il ruscello si espande e la linea lime (xG concessi) è il limite superiore OPPURE il ruscello si contrae e la linea bianca (xG) è il limite superiore : periodo di maggiore produzione offensiva dell’avversario (in proporzione al totale xG concesso);

3 - ricordare che il ruscello inesorabilmente si contrarrà (entrambe le curve devono arrivare al 100%).

In quest’ottica, vediamo come il ruscello del Torino cominci ad ampliarsi abbastanza regolarmente (c’è un periodo di contrazione verso la fine del primo tempo) a partire dal primo tempo e a restringersi poi significativamente soltanto nei minuti finali della partita, il periodo di maggiore pressione offensiva degli avversari: quei dannati minuti finali che i tifosi granata hanno imparato a conoscere fin troppo bene.

Andiamo, per avere un termine di paragone, ad esaminare i profili cumulativi caratteristici di altre squadre. Prima di farlo è bene notare che, a differenza delle visualizzazioni trattate in precedenza, il grafico non esibisce differenze qualitative: mostra semplicemente l’andamento nel tempo in partita di due metriche e nella loro relazione individua un profilo caratteristico per la squadra analizzata. In questo contesto non si può asserire che il grafico relativo al Torino sia meglio o peggio di quello relativo ad un’altra squadra (come potevamo fare nelle visualizzazioni precedenti), è semplicemente diverso.

Partiamo dunque dal Sassuolo

che sembra patire particolarmente i minuti finali del primo tempo per recuperare l’equilibrio nella prima fase della ripresa; la Juventus

che parte bene nella prima metà del primo tempo per concedere di più nella seconda metà; la Roma

ed il suo profilo, praticamente opposto rispetto a quello del Torino.

In particolare, si prendano la curva xG concessi del Torino e la curva xG della Roma:

abbiamo da una parte il Torino, che è la squadra che negli ultimi minuti di partita concede di più in proporzione se paragonato alle altre squadre, e dall’altra parte la Roma, la squadra che negli ultimi minuti di gioco produce di più in proporzione rispetto alle altre squadre.

Immaginate adesso se Torino e Roma dovessero incontrarsi cosa mai potrà succedere negli ultimi minuti di gioco…

CONCLUSIONI

—  

Abbiamo iniziato il nostro viaggio negli xG visualizzando e comparando i trend relativi alle metriche grezze di alcune squadre di Seria A, confermando l’idea di un Torino più solido difensivamente che pericoloso offensivamente ed evidenziando una tendenza non migliorativa rispetto alla stagione passata.

Abbiamo successivamente introdotto il concetto di differenziali ed analizzato le performance di squadra in questo contesto, rilevando come per il Torino esistano principalmente due tipi opposti di prestazione: uno che tende verso l’overperformance difensiva e l’underperformance offensiva - contro le difese a 4 - e l’altro che tende verso l’underperformance difensiva e l’overperformance offensiva - contro le difese a 3. Abbiamo infine analizzato l’andamento cumulativo degli xG in partita, confermando le difficoltà del team di Juric negli ultimi minuti di partita.

Se vi state chiedendo se sia corretto considerare queste conclusioni come oro colato, la risposta è NO. Abbiamo semplicemente individuato delle correlazioni (correlazione non significa causalità) e lo spettro della nostra analisi è piuttosto ristretto giacchè abbiamo considerato un’unica metrica. Sarebbe più corretto considerare queste conclusioni come ipotesi da verificare ulteriormente tramite altri layer di analisi.

Diffidiamo dunque di chi trae conclusioni definitive, soprattutto sulla base di analisi sommarie e non esaustive, e ricordiamoci che l’inestimabile utilità della scienza dei dati tante volte si risolve nel generare interrogativi più che nel fornire risposte.

Una vita tra la passione per il calcio e l'ossessione per i dati, alla disperata ricerca di un senso nelle cose sventolano con orgoglio il vessillo della milizia nerd. Cultore dello spazio-tempo, da Ventura a Picard. Musicante all'occorrenza. Di solito rimango, ma se vado via lo faccio con un tunnel.

Disclaimer: gli opinionisti ospitati da Toro News esprimono il loro pensiero indipendentemente dalla linea editoriale seguita dalla Redazione del giornale online, il quale da sempre fa del pluralismo e della libera condivisione delle opinioni un proprio tratto distintivo.