Kiedyś wszystko było proste - strzał był celny, albo niecelny ("Świnia, prąd, bzzzzz..." - cytując klasyka polskiego kabaretu), ale potem pojawili się oni. Analitycy piłkarscy opracowali model Expected Goals, rzucając zupełnie nowe światło na postrzeganie oddawanych uderzeń.W uproszczeniu współczynnik Expected Goals (goli oczekiwanych) oznacza prawdopodobieństwo, z jakim strzał oddany z danego miejsca i w określonych okolicznościach kończy się golem. Jeżeli więc zawodnik zakończy mecz z współczynnikiem 1 xG, oznacza to, że powinien w tym meczu zdobyć jedną bramkę. Jeżeli wynosi on 0,02 xG, to zapewne napastnik strzelał na bramkę rywala z bardzo nieprzygotowanych pozycji. Niektórzy, jak Michał Jaroń, udoskonalali te modele, dodając do nich kolejne zmienne, jak choćby miejsce, w które posyłana jest piłka. Tak właśnie powstał model Shot Quality. Dzięki takim narzędziom trenerzy mają dostęp do zupełnie nowego rodzaju danych, a dyskusja w piłce nożnej powoli wchodzi na nieosiągalny dotychczas poziom. Wojciech Górski, Interia: Zacznijmy od mocnego uderzenia. Wyliczyłeś ostatnio, że Robert Lewandowski ma około 3,5 proc. szans na wyrównanie lub pobicie rekordu Gerda Muellera. Michał Jaroń, programista specjalizujących się w sztucznej inteligencji, analityk danych piłkarskich: - To predykcja na podstawie popularnych ostatnio Expected Goals - najpopularniejszej zaawansowanej metryki w piłce nożnej. Z grubsza mówiąc, gole i strzały w piłce nożnej, w długim okresie, można dobrze modelować za pomocą znanego rozkładu prawdopodobieństwa. Wiedząc, ile będzie średnio padać strzałów, a tym samym goli, możemy dopasować odpowiedni rozkład prawdopodobieństwa. Nie wnikając w szczegóły powiem, że jest to tzw. rozkład Poissona. - Współczynnik Expected Goals Roberta Lewandowskiego w tym sezonie wynosi 1.03/90 minut (w uproszczeniu to znaczy, że powinien zdobywać średnio 1,03 bramki na 90 minut gry). Na podstawie tego dopasowałem rozkład Poissona i sto tysięcy razy przeprowadziłem symulację wszystkich meczów do końca sezonu, symulując liczbę goli w każdym meczu za pomocą wspomnianego rozkładu. 3,5 procent to faktycznie niewiele, patrząc na to, jak wiele osób twierdziło, że Robert pobije ten legendarny rekord. Można powiedzieć, że mamy tutaj do czynienia z klasycznym przykładem błędu kognitywnego - ignorowanie prawdopodobieństwa - często przypisujemy nadmierną pewność do mało prawdopodobnych wydarzeń. Od razu widzimy ważną funkcję analityki - obalanie mitów, obiektywizowanie dyskusji o piłce. Powiedziałeś, że musiałeś dokonać aż stu tysięcy symulacji spotkań, które odbędą się do końca sezonu, by otrzymać wiarygodny wynik. Rozumiem też, że dane opierałeś na dotychczasowych 24 występach Lewandowskiego w tym sezonie. Czy baza danych 24 meczów nie jest nieco zbyt mała, by móc wyciągać długofalowe wnioski? - Faktycznie, przy stu tysiącach symulacji, można powiedzieć, że obliczenia zbiegają i dają stabilne wyniki. Odnośnie liczby meczów - z jednej strony faktycznie może wydawać się, że to niewielka próbka. W zależności od konkretnego zastosowania analizę danych przeprowadza się na tysiącach, czy kilkudziesięciu tysiącach obiektów, ale akurat 24 mecze są w tym wypadku wystarczające. Szczególnie, że Expected Goals w przypadku Lewandowskiego w dłuższej perspektywie - gdybyśmy spojrzeli na więcej sezonów - wypada dość stabilnie. To około jednego Expected Goals na 90 minut. W tym sezonie to, tak jak wspomniałem, 1.03, w zeszłym sezonie było to 1, dwa sezony temu - 1.16. W obliczeniach uwzględniałem również poziom defensywy przyszłych rywali Bayernu, więc de facto modeluję, używając danych z całego sezonu. Wygląda na to, że Expected Goals Lewandowskiego niemal w każdym sezonie są stałe. - Tak, wahania są niewielkie, dlatego te 24 spotkania pozwalają na lekkie dostosowanie wartości do obecnego sezonu. Dlaczego w ogóle symuluję te spotkania aż sto tysięcy razy? Rozkład Poissona mówi nam, jakie jest prawdopodobieństwo, że w jednym konkretnym meczu, przez 90 minut, zawodnik strzeli x bramek. Wykorzystując odpowiedni wzór możemy zobaczyć, jakie jest prawdopodobieństwo, że zawodnik zdobędzie jedną bramkę, dwie bramki, trzy bramki i tak dalej. Mamy zdecydowanie trudniejszy problem, jeżeli chcemy przeprowadzić symulację aż ośmiu meczów do przodu. Dlatego korzysta się z tzw. metod przybliżonych, czyli np. metody Monte Carlo - sumuje się wiele razy przewidywaną "przyszłość", wyciąga z tego średnią i na tej podstawie szacuje się prawdopodobieństwo danego rozstrzygnięcia. - Co ciekawe, Lewandowski wypada dosyć przeciętnie w kontekście metryk strzeleckich. To może zabrzmieć dość kontrowersyjne, zwłaszcza w Polsce, gdzie Lewandowski ma status piłkarskiego boga. Te statystyki nie podważają jego wielkości, ale w Expected Goals, czy opracowanym przeze mnie modelu Shot Quality - który uwzględnia nie tylko moment uderzenia, ale również miejsce w bramce, w które zawodnik oddał strzał, Lewandowski wypada dość przeciętnie. Można zastanowić się, co to oznacza. Po pierwsze można stwierdzić, że napastnik Bayernu ma potencjał na zdobywanie jeszcze większej liczby goli w przeciągu całego sezonu, niż dotychczas, bo jego drużyna stwarza mu więcej okazji, niż on wykorzystuje. Tak jak wspomniałem, jest to około 1 Expected Goals na mecz, a więc mnożąc przez 34 kolejki Bundesligi, można by oczekiwać, że Lewandowski będzie strzelał w każdym sezonie około 34 bramki. Tymczasem w zeszłym sezonie ligowym zdobył ich 22, wcześniej było to odpowiednio 29 i 30 goli. Lewandowski strzela więc troszeczkę mniej, niż wynika to z sytuacji strzeleckich stwarzanych mu przez drużynę. - Można wyjaśniać to tak, że mając tyle okazji, Lewandowski jest czasem troszkę zdekoncentrowany. Zdobywa tyle bramek, że z niewykorzystanych okazji nikt go nie rozlicza. Natomiast patrząc na liczby w szerszym kontekście, widzimy że jednak mógłby strzelać nawet więcej. Z drugiej strony modele nigdy nie przewidują liczby goli 1:1 - jest to zawsze pewne uśrednienie. Zobacz, co jeszcze można znaleźć na Twitterze Michała Jaronia