Dobbiamo analizzare quanto sia accurato il WAR, dopo averne discusso approfonditamente (pitchers, hitters). Prima di fare i controlli del caso, dobbiamo ricordarci del fatto che le Wins Above Replacement descrivano il valore dei giocatori, ma non necessariamente le classifiche in dettaglio, perché i dettagli più fini possono essere determinabili da situazioni particolari: una valida battuta al momento giusto, casualità, scelte manageriali, “schemi di efficacia”.

Con “schemi di efficacia” intendo che una squadra potrebbe, in determinate stagioni, accumulare gran parte del proprio valore in brevi periodi piuttosto che in maniera “simmetrica”. In poche parole potrebbe essere caldissima per determinati periodi e vincere diverse partite per 8-2 o 14-1, ma poi avere periodi da 1-2, 2-4, 0-1 e via dicendo. Non sempre le squadre possono distribuire come vorrebbero il rendimento, ed i giocatori sono soggetti a particolari strisce di forma (o di slump), proprio come un giocatore di calcio può fare 8 gol in 5 partite e poi 2 nelle 10 successive: i suoi 10 gol in 15 partite ci dicono più sulle sue qualità rispetto ai due periodi individuali, ma il suo rendimento, non essendo costante, non aiuterà in maniera uguale nei due periodi.

Analogamente le squadre MLB sono soggette a problemi di questo genere. Detto e premesso tutto ciò, il sistema WAR deve prevedere con una certa adeguatezza le W reali di una squadra per esulare dalla teoria e potersi vedere attribuito un significato pratico nella descrizione del valore dei giocatori. Per effettuare questo controllo ho preso i dati del 2009, 2010 e 2011 di ciascuna lega, con ciascun sistema WAR, per controllare lega per lega la correlazione fra le WAR e le Wins reali. Penso che lo sappiate, ma la correlazione fra due set di dati viene misurata fino ad un massimo di 1.00, dove ad 1.00 c’è la “perfezione”. Ad esempio, c’è una correlazione di 1.00 fra le Wins e le Wins (ossia fra due insiemi uguali). Fra Wins e WAR non ci aspettiamo 1.00 naturalmente. Se trovassimo 0.70, vorrebbe dire che le Wins Above Replacement spieghino il 70% dei rankings, e che gli altri fattori citati (gli “schemi di efficacia”, fortuna, casualità, scelte manageriali o semplicemente errori di calcolo delle WAR stesse) descrivano il 30% rimanente. Ma basta parlare, e passiamo ai dati:

  • 2009 AL: fWAR 0.90, bWAR 0.92
  • 2010 AL: fWAR 0.96, bWAR 0.97
  • 2011 AL: fWAR 0.91, bWAR 0.92
  • 2009 NL: fWAR 0.88, bWAR 0.95
  • 2010 NL: fWAR 0.85, bWAR 0.95
  • 2011 NL: fWAR 0.90, bWAR 0.91

La prima cosa da notare è che siano risultati straordinari: la medie sono 0.94 per bWAR e 0.90 per fWAR. Semplicemente usando le Wins Above Replacement, riusciamo a descrivere dal 90% al 94% (ed in certi anni anche di più) la classifica di una squadra, indicando come le scelte di un manager o i fattori casuali abbiano un’incidenza ridottissima: questo è piuttosto normale, perché in una lunga stagione i colpi di fortuna e sfortuna tendono a cancellarsi fra loro, anche se magari non è vero lo stesso durante serie brevi, come i playoff. Ma è anche importante perché vuol dire che il calcolo dei sistemi WAR abbia già raggiunto un’accuratezza spaventosa. Miglioreranno ulteriormente in futuro, ma già adesso siamo a livelli impensabili solo qualche anno fa e tutto ciò testimonia come le statistiche sabermetriche non siano semplicemente numeri inventati dal nulla, ma potenti strumenti descrittivi e predittivi del valore di giocatori e squadre, di precisione elevatissima.

Come si vede, il bWAR vince nettamente. In particolare, il sistema WAR di Fangraphs soffre in National League perché non gestisce bene l’apporto offensivo dei pitchers (effettivamente sembra ignorarlo in toto), mentre il bWAR sembra farlo bene. Il bWAR ha un vantaggio anche in AL, per quanto molto più modesto, e questo invece presumibilmente è dovuto o al fatto di usare le Runs invece della FIP per i lanciatori, o alla maggiore accuratezza del TotalZone rispetto all’UZR, oppure alla gestione della difesa dei ricevitori: mentre Fangraphs si limita a valutare come controllino il running game (ossia SB e CS), Baseball Reference controlla anche WP e PB. In futuro i due sistemi incorporeranno l’abilità del framing e questo probabilmente li farà migliorare ulteriormente, anche se la differenza non dovrebbe essere eccessiva a livello di squadre (dovrebbe essere molto rilevante a livello individuale per i ricevitori invece). Probabilmente la maggiore accuratezza del bWAR in realtà deriva da tutti quei fattori messi assieme.

Ci vorrà tempo, ma come si vede non solo siamo sulla strada giusta, ma siamo già arrivati a livelli eccellenti, e ad un certo punto dovremo comunque fermarci sotto 1.00 semplicemente perché casualità, manager e strisce calde o fredde manterranno un minimo valore descrittivo per forza di cose. Se avevate ancora dubbi sull’efficacia dei sistemi WAR, penso e spero che questo ve li abbia rimossi del tutto.

Questo studio è privo del WARP, perché purtroppo Baseball Prospectus non lo rende facilmente accessibile a livello di squadre. Mi aspetterei un risultato vicino o inferiore al sistema WAR di Fangraphs, ma comunque di eccellenza assoluta.