Witam, dzisiaj w Ciekawostkach chce przybliżyć Wam jedną z powszechnie używanych zaawansowanych statystyk, ESPN – Real Plus-Minus w skrócie RPM. Jest ona często nadużywana do porównania między sobą graczy, a tak naprawdę przybliża ona wpływ gracza na wyniki drużyny i jak każda pojedyncza statystyka nie uwzględnia wszystkich aspektów i posiada pewien margines błędu.
Wyjdźmy od definicji za ESPN:
Player’s estimated on-court impact on team performance, measured in net point differential per 100 offensive and defensive possessions. RPM takes into account teammates, opponents and additional factors
Czyli próbuje ona oszacować wpływ gracza na wyniki drużyny, mierzony w formie różnicy punktowej (+/-) w przeliczeniu na 100 ofensywnych i defensywnych posiadań. RPM bierze pod uwagę zawodników drużyny gracza jak i zawodników przeciwnika oraz inne dodatkowe czynniki.
Wyjdźmy od najprostszego plus-minus które oblicza się w ten sposób, że oblicza się o ile lepszy lub gorszy był wynik drużyny kiedy dany gracz przebywał na boisku. W tym przypadku wynik każdego gracza jest silnie uzależniona od jakości jego kolegów z którymi przebywa razem na boisku. Popatrzmy na pierwszą dziesiątkę w tym sezonie w prostym plus-minus:
Player | Team | +\- |
---|---|---|
Stephen Curry | GS | 13.2 |
Kevin Durant | GS | 11.9 |
Klay Thompson | GS | 11.8 |
Draymond Green | GS | 11.5 |
Chris Paul | LAC | 10.1 |
Kevin Love | CLE | 7.7 |
Blake Griffin | LAC | 7.6 |
Patrick Patterson | TOR | 7.4 |
Andre Iguodala | GS | 7.1 |
Zaza Pachulia | GS | 7.1 |
Jest w niej m.in. na dziesiątym miejscu Zaza Pachulia, który na pewno nie jest w top 10 graczy, a tak wysoką pozycję zawdzięcza temu, że gra u boku głownie Curry’ego, Duranta, Thomsona i Greena. Jest tu też Patrick Patterson, który w tym sezonie gra głównie jako rezerwowy przez co gra często przeciwko słabszym zawodnikom przeciwnika. Zatem popatrzmy z czego wynikają, aż tak wysokie pozycje Zazy czy Pattersona.
Załóżmy, że gramy 3 graczy na 3 i plus minus dla 3 graczy przy średnio 10 minutach razem:
- X + Y na boisku: +10 punktów
- X + Z na boisku: +8 punktów
- Y + Z na boisku: +4 punkty
Na oko widać, że najlepszym graczem jest gracz X, a najsłabszy gracz nr Z. Jeśli weźmiemy te stwierdzenia jako 3 równania z 3 niewiadomymi i rozwiążemy to wyjdzie nam, że:(link do obliczeń)
- Gracz X ma +7,
- Gracz Y ma + 4,
- Gracz Z ma +1.
Czyli najlepszy jest gracz X, potem i Y a najsłabszy gracz Z.
Jednak gdyby najsłabszy zawodnik Z grał po 30 minut z najlepszym graczem X, a dwie pozostałe pary grały by po 10 minut: (link do obliczeń)
- Gracz X ma +17,
- Gracz Y ma – 5,
- Gracz Z ma +9.
To wyjdzie nam, że zawodnik X jest dalej najlepszy, ale najsłabszy gracz Z dzięki wpływowi X ma +9, a gracz Y ma – 5 pomimo tego, że jest znacznie lepszy od Z.
Po to aby wyeliminować wpływ pozostałych zawodników na boisku opracowano Adjusted Plus-Minus (dopasowany plus minus), oblicza się go to w ten sposób, że dzieli się każde spotkanie na odcinki czasu, w których przebywają dani zawodnicy na boisku (tzn odcinki czasu bez żadnej zmiany) i tworzy z tego listę równań:
- x1 * gracz1 + x2 *gracz2 + … + x10*gracz10 = plus/minus
- (zmiana powiedzmy za gracza1 wszedł gracz 11)
- x11 *gracz11 + x2*gracz2 + … + gracz10 = plus/minus
- itd
Współczynniki przy zawodnikach mają wartość +1 dla jednej drużyny i – 1 dla drugiej i te setki, tysiące czy nawet miliony równań rozwiązują już komputery za pomocą regresji liniowej. Takie rozwiązanie eliminuje wpływ pozostałych zawodników, ale pozostają jeszcze następujące problemy:
- nie do końca uda się wyeliminować wpływ innych graczy, np. jeśli gracz A gra dużo z B, a prawie wcale z C i D, która to para też gra przeważnie razem na boisku, to wyniki w parach dalej dążą do wyrównania i promują słabszgo gracza kosztem lepszego
- problem nadmiernego dopasowywania(overfitting) – jeśli np. gracz zagra 10 spotkań ze skutecznością 70%, chociaż w karierze rzuca 40, to korzystając z tego modelu zakłada się, że zawsze będzie rzucać 70%, co przy ocenianiu zawodnika pod kątem jego dalszej kariery jest dużym błędem
- za duże różnice między sezonami dla tych samych zawodników
- margines błędu maleje dopiero przy uwzględnieniu danych z paru sezonów, stosowania limitów minutowych itp.
- więcej o APM można znaleźć tu: link, link, link
By zminimalizować te błędy i problemy wprowadza się dodatkowe regulacje, za pomocą różnych metod statystycznych i numerycznych jak z grupy regularyzacji Tichonowa, a konkretniej metody Regresja grzbietowa, (ang. Ridge Regression). A metrykę uzyskaną z ich pomocą nazywamy „Regularized Adjusted Plus-Minus” (RAPM), czyli regulowany dopasowany plus-minus:). RAPM jest ma około 2 razy mniejszy błąd niż APM dla danych na przestrzeni 3 lat.
Nasz bohater Real-Plus-Minus jest opracowany przez byłych konsultantów Phoenix Suns Steve’a Ilardiego i Jeremiasa Engelmanna, która wywodzi się znów od xRAPM (opracowanego przez Engelmanna, w przybliżeniu jest to plus/minus tylko obliczany osobno dla ofensywy i defensywy jako:
- Offensive Real Plus Minus: (ORPM) – obliczany na podstawie różnicy między średnią zdobywanych punktów na 100 posiadań gdy gracz jest na boisku w stosunku do średniej dla całej drużyny
- Defensive Real Plus Minus: (DRPM) – obliczany na podstawie różnicy między średnią traconych punktów na 100 posiadań gdy gracz jest na boisku w stosunku do średniej dla całej drużyny
- do regulacji tych danych stosowane są metody
- Sieci bayesowskiej
- stosowane są krzywe wieku (Aging Curve), uwzględniony jest uśredniony wpływ wieku na osiągnięcia
- wyniki spotkań
- out-of-sample testing
- inne nieujawnione czynniki bo dokładna formuła obliczania jest utajniona
Popatrzmy na najlepszych zawodników w tym sezonie w RPM:
RK | NAME | TEAM | GP | MPG | ORPM | DRPM | RPM |
---|---|---|---|---|---|---|---|
1 | Chris Paul, PG | LAC | 36 | 30.9 | 5.60 | 3.69 | 9.29 |
2 | Kyle Lowry, PG | TOR | 46 | 37.4 | 5.93 | 1.04 | 6.97 |
3 | Jimmy Butler, SF | CHI | 46 | 36.7 | 5.60 | 1.16 | 6.76 |
4 | Kevin Durant, SF | GS | 47 | 34.2 | 4.22 | 2.25 | 6.47 |
5 | LeBron James, SF | CLE | 42 | 37.6 | 5.44 | 0.83 | 6.27 |
6 | Russell Westbrook, PG | OKC | 47 | 34.7 | 6.38 | -0.12 | 6.26 |
7 | Kawhi Leonard, SF | SA | 42 | 33.5 | 5.52 | 0.66 | 6.18 |
8 | Draymond Green, PF | GS | 45 | 33.2 | 1.86 | 4.30 | 6.16 |
9 | Paul Millsap, PF | ATL | 44 | 33.8 | 1.69 | 4.24 | 5.93 |
10 | Stephen Curry, PG | GS | 47 | 33.5 | 5.68 | 0.12 | 5.80 |
Dalej mamy 3 zawodników z GS w pierwszej 10 (Durant, Green i Curry), co nie dziwi biorąc pod uwagę jak dobrze grają w tym sezonie, ale nie ma już Thomsona(68) i Zazy(23). Pierwszy jest Chris Paul, który jest niedoceniany ostatnio, a bez niego widać jak grają Clippers. Przypomnę co oznacza, że ma on RPM na poziomie 9.29 (5.6 ORPM + 3.69 DRPM), oznacza to że jeśli zamienić by przeciętnego gracza w drużynie na Chrisa Paula to drużyna zdobywałaby średnio o 9.29 punktu na sto posiadań, a 5.6 ORPM i 3.69 DRPM znaczy, że zdobywała by średnio więcej o 5.6 pkt i traciła średnio mniej o 3.69 pkt na 100 posiadań.
Wróćmy do Zazy Pachulii w porównaniu do czystego +/- spadł on z 10 miejsca na 23, czyli nadal jest wysoko, a jego RPM wynosi 0.16 ORPM + 3.2 DRPM czyli 3.36 RPM, czyli też bardzo wysoki wynik, ale grał on tylko po około 18.8 minut czyli dużo mniej niż reszta czołówki i taka niewielka próbka danych może generować większy błąd, a może też Zaza idealnie uzupełnia 4 gwiazdy GSW i w te 18.8 minut sam wypracowuje te dodatkowe +3.36/100 posiadań.
Na koniec pokażę jeszcze tabelę RPM – WINS, czyli RPM który uwzględnia sumę minut jakie gracz spędził na boisku (dokładniej ilość posiadań), im więcej tym oczywiście dany zawodnik miał większy wpływ:
RK | NAME | TEAM | GP | MPG | RPM | WINS |
---|---|---|---|---|---|---|
1 | Kyle Lowry, PG | TOR | 47 | 37.4 | 6.97 | 10.13 |
2 | James Harden, SG | HOU | 51 | 36.5 | 5.68 | 9.93 |
3 | Jimmy Butler, SF | CHI | 47 | 36.8 | 6.76 | 9.86 |
4 | Kevin Durant, SF | GS | 48 | 34.3 | 6.47 | 9.65 |
5 | Russell Westbrook, PG | OKC | 48 | 34.7 | 6.26 | 9.39 |
6 | Stephen Curry, PG | GS | 47 | 33.5 | 5.80 | 8.92 |
7 | Chris Paul, PG | LAC | 36 | 30.9 | 9.29 | 8.91 |
8 | LeBron James, SF | CLE | 43 | 37.5 | 6.27 | 8.69 |
9 | Draymond Green, PF | GS | 46 | 33.2 | 6.16 | 8.67 |
10 | Giannis Antetokounmpo, SF | MIL | 46 | 35.2 | 5.64 | 8.07 |
Ta ostatnia tabelka przypomina trochę listę kandydatów na MVP, a na pewno są w niej zawodnicy z top 20 ligi w tym sezonie pod względem wpływu na wyniki drużyn, na pewno brakuje Kawhi’ego Leonarda, ale to dlatego, że nie gra on znów dużo minut.
Ja bym nazwał RPM i RPM-WINS odpowiednim współczynnikiem do oceniania wartości gracza dla drużyny (takim statystycznym MVP) – oczywiście nie możemy zapomnieć, że jest obarczony błędem statystycznym i nie możemy go używać jako jedynego słusznego argumentu, że gracz A jest lepszy od B.
Pozdrawiam,
jeśli czekacie na typowe Ciekawostki to się nie martwcie zbieram co najciekawsze i jak znajdę czas to się nimi podzielę z Wami.
Świetny pomysł na wpis. Przyda mi się. Dzięki
Poczułem się jak na wykładzie matematyki. Brrr…Mam wrażenie, że NBA tworzy niektóre statystyki na siłę. Wpis b. dobry.
Więcej. Czy przy boxscorach jest RPM czy PM?
Najzwyklejsze plus/minus
Świetny artykuł! Dzięki Michale :)
Jeśli tylko masz czas to czy mógłbyś sprawdzić czy Carmelo Anthony według statystyk „poprawi” grę Clippers? Z góry dzięki!
Jakby wymienili go za Pierce’a i Crowforda to na pewno. A jakbym miał konkretny trade to można analizować