Reklama

Reklama

Bundesliga. Michał Jaroń: Lewandowski ma potencjał do zdobywania jeszcze większej liczby bramek

Wyjątkowo ciekawego wywiadu udzielił Interii Michał Jaroń, analityk danych piłkarskich, niegdyś pracujący dla Legii Warszawa. Dogłębna analiza gry poparta zaawansowanymi modelami matematycznymi - między innymi setką tysięcy symulacji spotkań - pozwoliła ocenić prawdopodobieństwo, z jakim Robert Lewandowski wyrówna lub pobije legendarny rekord Gerda Muellera. Co więcej, okazuje się, że snajper Bayernu wciąż może zdobywać jeszcze więcej bramek w kolejnych sezonach. Zapraszamy na pierwszą część wywiadu.

Kiedyś wszystko było proste - strzał był celny, albo niecelny ("Świnia, prąd, bzzzzz..." - cytując klasyka polskiego kabaretu), ale potem pojawili się oni. Analitycy piłkarscy opracowali model Expected Goals, rzucając zupełnie nowe światło na postrzeganie oddawanych uderzeń.

W uproszczeniu współczynnik Expected Goals (goli oczekiwanych) oznacza prawdopodobieństwo, z jakim strzał oddany z danego miejsca i w określonych okolicznościach kończy się golem. Jeżeli więc zawodnik zakończy mecz z współczynnikiem 1 xG, oznacza to, że powinien w tym meczu zdobyć jedną bramkę. Jeżeli wynosi on 0,02 xG, to zapewne napastnik strzelał na bramkę rywala z bardzo nieprzygotowanych pozycji.

Reklama

Niektórzy, jak Michał Jaroń, udoskonalali te modele, dodając do nich kolejne zmienne, jak choćby miejsce, w które posyłana jest piłka. Tak właśnie powstał model Shot Quality. Dzięki takim narzędziom trenerzy mają dostęp do zupełnie nowego rodzaju danych, a dyskusja w piłce nożnej powoli wchodzi na nieosiągalny dotychczas poziom.

Wojciech Górski, Interia: Zacznijmy od mocnego uderzenia. Wyliczyłeś ostatnio, że Robert Lewandowski ma około 3,5 proc. szans na wyrównanie lub pobicie rekordu Gerda Muellera.

Michał Jaroń, programista specjalizujących się w sztucznej inteligencji, analityk danych piłkarskich: - To predykcja na podstawie popularnych ostatnio Expected Goals - najpopularniejszej zaawansowanej metryki w piłce nożnej. Z grubsza mówiąc, gole i strzały w piłce nożnej, w długim okresie, można dobrze modelować za pomocą znanego rozkładu prawdopodobieństwa. Wiedząc, ile będzie średnio padać strzałów, a tym samym goli, możemy dopasować odpowiedni rozkład prawdopodobieństwa. Nie wnikając w szczegóły powiem, że jest to tzw. rozkład Poissona.

- Współczynnik Expected Goals Roberta Lewandowskiego w tym sezonie wynosi 1.03/90 minut (w uproszczeniu to znaczy, że powinien zdobywać średnio 1,03 bramki na 90 minut gry). Na podstawie tego dopasowałem rozkład Poissona i sto tysięcy razy przeprowadziłem symulację wszystkich meczów do końca sezonu, symulując liczbę goli w każdym meczu za pomocą wspomnianego rozkładu. 3,5 procent to faktycznie niewiele, patrząc na to, jak wiele osób twierdziło, że Robert pobije ten legendarny rekord. Można powiedzieć, że mamy tutaj do czynienia z klasycznym przykładem błędu kognitywnego - ignorowanie prawdopodobieństwa - często przypisujemy nadmierną pewność do mało prawdopodobnych wydarzeń. Od razu widzimy ważną funkcję analityki - obalanie mitów, obiektywizowanie dyskusji o piłce.

Powiedziałeś, że musiałeś dokonać aż stu tysięcy symulacji spotkań, które odbędą się do końca sezonu, by otrzymać wiarygodny wynik. Rozumiem też, że dane opierałeś na dotychczasowych 24 występach Lewandowskiego w tym sezonie. Czy baza danych 24 meczów nie jest nieco zbyt mała, by móc wyciągać długofalowe wnioski?

- Faktycznie, przy stu tysiącach symulacji, można powiedzieć, że obliczenia zbiegają i dają stabilne wyniki. Odnośnie liczby meczów - z jednej strony faktycznie może wydawać się, że to niewielka próbka. W zależności od konkretnego zastosowania analizę danych przeprowadza się na tysiącach, czy kilkudziesięciu tysiącach obiektów, ale akurat 24 mecze są w tym wypadku wystarczające. Szczególnie, że Expected Goals w przypadku Lewandowskiego w dłuższej perspektywie - gdybyśmy spojrzeli na więcej sezonów - wypada dość stabilnie. To około jednego Expected Goals na 90 minut. W tym sezonie to, tak jak wspomniałem, 1.03, w zeszłym sezonie było to 1, dwa sezony temu - 1.16. W obliczeniach uwzględniałem również poziom defensywy przyszłych rywali Bayernu, więc de facto modeluję, używając danych z całego sezonu.

Wygląda na to, że Expected Goals Lewandowskiego niemal w każdym sezonie są stałe.

- Tak, wahania są niewielkie, dlatego te 24 spotkania pozwalają na lekkie dostosowanie wartości do obecnego sezonu. Dlaczego w ogóle symuluję te spotkania aż sto tysięcy razy? Rozkład Poissona mówi nam, jakie jest prawdopodobieństwo, że w jednym konkretnym meczu, przez 90 minut, zawodnik strzeli x bramek. Wykorzystując odpowiedni wzór możemy zobaczyć, jakie jest prawdopodobieństwo, że zawodnik zdobędzie jedną bramkę, dwie bramki, trzy bramki i tak dalej. Mamy zdecydowanie trudniejszy problem, jeżeli chcemy przeprowadzić symulację aż ośmiu meczów do przodu. Dlatego korzysta się z tzw. metod przybliżonych, czyli np. metody Monte Carlo - sumuje się wiele razy przewidywaną "przyszłość", wyciąga z tego średnią i na tej podstawie szacuje się prawdopodobieństwo danego rozstrzygnięcia.

- Co ciekawe, Lewandowski wypada dosyć przeciętnie w kontekście metryk strzeleckich. To może zabrzmieć dość kontrowersyjne, zwłaszcza w Polsce, gdzie Lewandowski ma status piłkarskiego boga. Te statystyki nie podważają jego wielkości, ale w Expected Goals, czy opracowanym przeze mnie modelu Shot Quality - który uwzględnia nie tylko moment uderzenia, ale również miejsce w bramce, w które zawodnik oddał strzał, Lewandowski wypada dość przeciętnie. Można zastanowić się, co to oznacza. Po pierwsze można stwierdzić, że napastnik Bayernu ma potencjał na zdobywanie jeszcze większej liczby goli w przeciągu całego sezonu, niż dotychczas, bo jego drużyna stwarza mu więcej okazji, niż on wykorzystuje. Tak jak wspomniałem, jest to około 1 Expected Goals na mecz, a więc mnożąc przez 34 kolejki Bundesligi, można by oczekiwać, że Lewandowski będzie strzelał w każdym sezonie około 34 bramki. Tymczasem w zeszłym sezonie ligowym zdobył ich 22, wcześniej było to odpowiednio 29 i 30 goli. Lewandowski strzela więc troszeczkę mniej, niż wynika to z sytuacji strzeleckich stwarzanych mu przez drużynę.

- Można wyjaśniać to tak, że mając tyle okazji, Lewandowski jest czasem troszkę zdekoncentrowany. Zdobywa tyle bramek, że z niewykorzystanych okazji nikt go nie rozlicza. Natomiast patrząc na liczby w szerszym kontekście, widzimy że jednak mógłby strzelać nawet więcej. Z drugiej strony modele nigdy nie przewidują liczby goli 1:1 - jest to zawsze pewne uśrednienie.

Zobacz, co jeszcze można znaleźć na Twitterze Michała Jaronia

W obecnym sezonie pod względem Expected Goals lepiej od Lewandowskiego wypada Timo Werner - napastnik RB Lipsk zdobył więcej bramek, niż "powinien" według modelu.

- Tak, szczególnie patrząc na metrykę "Non-penalty", a więc bez rzutów karnych. Bo akurat w rzutach karnych Lewandowski wygląda bardzo dobrze. Natomiast wyłączając jedenastki, snajper Bayernu wypada faktycznie gorzej od Timo Wernera. Gorzej wypada też od Erlinga Haalanda z Borussii Dortmund. Norweg ma znakomity początek występów, ale trzeba będzie poczekać dłużej na bardziej miarodajne wnioski. W tym sezonie dane Lewandowskiego i tak wyglądają bardzo dobrze, ale w poprzednim sezonie strzelił aż 11 goli mniej niż wynikałoby to z modelu Expected Goals. Pod względem całego sezonu to sporo. We wcześniejszych sezonach jego dorobek był bliższy oczekiwanej liczbie goli.

- Tak naprawdę jeszcze gorzej wypadał Robert w mojej metryce Shot Quality, uwzględniającej miejsce w bramce, w które został oddany strzał. Można zinterpretować to tak, że Lewandowski nie zawsze wybiera najlepsze opcje, gdzie powinien uderzyć. W metryce uwzględniam, że strzały w "okienko" lub boczne sektory bramki są zdecydowanie groźniejsze od strzałów po ziemi w środek. Pod względem tych dodatkowych zmiennych Lewandowski wypadał gorzej od innych topowych snajperów na świecie.

To o tyle zaskakujące, że z coraz większym przekonaniem uważa się Lewandowskiego za najlepszą obecnie "dziewiątkę" na świecie.

- Inne metryki z kolei pokazują i potwierdzają ciągły rozwój Roberta Lewandowskiego. Poczynając od sezonu 2014/2015, w każdym kolejnym sezonie Robert poprawił swoje metryki xBuildup i xChain (metryki szacujące kontrybucje zawodnika do kreacji groźnych akcji). Pokazuje to, że Robert jest coraz bardziej wszechstronnym graczem. Z drugiej strony, żeby być w pełnym obiektywnym, należałoby też uwzględnić wpływ poleceń taktycznych realizowanych przez Roberta w danym okresie.

- Wracając jeszcze do Expected Goals w Bundeslidze - na drugim biegunie jest Krzysztof Piątek, który strzelił 2,5 gola mniej niż wynika to z non-penalty Expected Goals. 

A jak to wygląda w innych topowych ligach?

- Najlepiej wypadają Jamie Vardy i Pierre-Emerick Aubameyang, którzy zdobyli dotychczas prawie pięć goli więcej niż wynika to z Expected Goals. Z kolei Ciro Immobile zdobył niemal siedem goli więcej!

Wracając do Lewandowskiego. W meczu z Unionem Berlin jedyną bramkę zdobył z rzutu karnego. Skupmy się właśnie na tym aspekcie. Strzał z rzutu karnego - czy dla wszystkich piłkarzy ma taki sam współczynnik Expected Goals i, jeżeli tak, to jaki?

- Lewandowski jest bardzo ciekawym przypadkiem, zwłaszcza w kontekście Expected Goals. Sama idea Expected Goals jest taka, że nie powinna nigdy brać tożsamości zawodnika pod uwagę. Oczywiście są też modele bardziej zaawansowane, gdy wykorzystuje się atrybuty piłkarzy np. z gier FIFA albo Football Manager, podstawia się je do modelu i te modele mają większe zdolności predykcyjne w długim okresie. Ale to już jakby kolejny krok po Expected Goals. Założenia Expected Goals bowiem pozwalają oszacować średnie zagrożenie danego strzału, niezależnie od tego czy strzela Leo Messi, czy Michał Kucharczyk. Jeżeli uwzględniamy tożsamość zawodnika, to troszkę tracimy ten sens Expected Goals.

 - Rzutom karnym na ogół przypisuje się współczynnik Expected Goals 0.75, czyli średnio trzy na cztery strzały z rzutów karnych faktycznie są zamieniane na gole. To uśredniona wartość, bo ta na pewno jest zależna od jakości zawodnika. Biorąc pod uwagę wyliczenia z twojego artykułu o karnych Lewandowskiego (możesz go przeczytać w tym miejscu), to powinniśmy przypisać mu współczynnik przekraczający przynajmniej 0.8, a pewnie nawet 0.9. Czasami do Expected Goals nie są wliczane rzuty karne - to tzw. "non-penalty Expected Goals", bo jednak jedenastki troszeczkę zaciemniają obraz. Zazwyczaj w każdej drużynie jest jeden wykonawca rzutów karnych, co może prowadzić do błędnych i niesprawiedliwych wniosków, jeżeli analizujemy postawę strzelecką zawodników w kontekście Expected Goals. Jednak w swojej predykcji na temat prognozy strzeleckiej Lewandowskiego akurat uwzględniałem rzuty karne.

Rzuty karne i inne stałe fragmenty są chyba dużo łatwiejsze do rozpracowania dla analityków od tych momentów gry, które toczą się bardzo spontanicznie.

- To prawdziwe stwierdzenie. Rzuty karne w długim okresie - jeżeli wzięlibyśmy pod uwagę kilkaset, a nawet kilka tysięcy rzutów karnych, to powinniśmy oczekiwać właśnie takich danych - trzy na cztery karne średnio zostaną wykorzystane. W innych sytuacjach - czy mówimy o strzałach "z główki", czy o strzałach nogą - otrzymamy dużo większą losowość i modele Expected Goals nigdy nie przewidzą jeden do jednego liczby bramek. Rzuty karne są dobrze opisane. Są ludzie, którzy poświęcają całe blogi wyłącznie rzutom karnym. Analizują prawdopodobieństwo, posługując się różnymi pojęciami między innymi z teorii gier.

- Z kolei rzuty wolne są traktowane trochę po macoszemu w analityce piłkarskiej. Nie spotkałem się jeszcze z jakąś bardziej dogłębną analizą rzutów wolnych. Jeżeli zaś chodzi o rzuty rożne, to przeprowadza się bardzo skomplikowane analizy. Pokazuje się np. czy skuteczniejsze jest krycie strefowe czy indywidualne, czy powinno się ustawiać zawodnika na słupku, czy zagrać piłkę na długi słupek czy na krótki itd..

- Stałe fragmenty gry są właściwie jedynymi momentami w piłce nożnej, które można porównać do bardziej schematycznych gier zespołowych, jak koszykówka lub piłka ręczna. W pozostałym czasie gry charakterystyka piłki nożnej jest zdecydowanie inna, niż tzw. "invasion sports", czyli te gry zespołowe, w których zespoły współdzielą boisko i ich celem jest zdobycie bramki lub punktów. Futbol jest zdecydowanie mniej schematyczny.

Nie wiem, czy się ze mną zgodzisz: zawsze mam wrażenie, że w analizie piłkarskiej dużym problemem jest to, jak liczby, które opisują mecz mają oddać zamysł danego piłkarza. Np. statystyki Borussii Dortmund pod wodzą Juergena Kloppa pokazywały, że Sebastian Kehl miał dużo lepszą skuteczność podań od Marco Reusa, czy Mario Goetzego. W Barcelonie - pewnie Sergio Busqeuts będzie miał lepszą skuteczność podań od Messiego, a nie oznacza to przecież, że więcej dają drużynie.

- To może być przyczynkiem do dłuższej dyskusji na temat tego, jak długo byliśmy "niewolnikami" dotychczasowych, zbyt prostych statystyk, takich jak właśnie skuteczność podań, czy liczba celnych strzałów napastników lub obronionych strzałów bramkarzy. Przede wszystkim w "klasycznych" statystykach brakuje kontekstu. Posiadając jedynie surowe liczby, jak procent udanych podań, czy procent utrzymywania się przy piłce - właściwie nie wiemy nic o meczu. Nic o intencjach zawodnika.

Jak więc analitycy radzą sobie z tym, by oddać zamysł piłkarza, który czasami zaryzykuje podaniem, mającym stworzyć dogodną sytuację bramkową - jeśli mu się nie uda, będzie ono zapisane jako podanie niecelne, podczas gdy inny piłkarz może zagrać wszerz boiska, przyhamować kontratak, co zostanie zapisane jako podanie celne, ale gdy spojrzymy kto chciał realnie pomóc drużynie - będzie to ten pierwszy zawodnik.

- Analityka radzi sobie z tym w ten sposób, że stara się wejść na wyższy poziom szczegółowości i analizować wszystkie zagrania boiskowe w szerszym kontekście. Więc zamiast patrzeć na skuteczność podań danego zawodnika, powinniśmy patrzeć na to, w jakim kontekście dane podanie było wykonane. Jest taka popularna w środowisku praca, której tytuł w tłumaczeniu na język polski to "Nie wszystkie podania są warte tyle samo". W tej pracy wartość każdego podania jest szacowana na podstawie sytuacji boiskowej. Tutaj moglibyśmy rozróżnić - jeżeli jakiś zawodnik będzie miał 100 proc. skutecznych podań, to coś nam już "śmierdzi". Analityka pozwala nam odróżnić wartościowe podania, od tzw. podań na alibi.

- Używając fachowej analizy, możemy zauważyć, że dany zawodnik zawsze wybiera najprostszą opcję - czyli podania do najbliższego lub też wykonuje podania przy zerowym pressingu przeciwnika. Używając tego bardziej szczegółowego podejścia - patrzymy na to, ilu zawodników było dookoła, ilu zawodników było na linii podania, jak długie było podanie, czy adresat podania znajdował się na wolnym polu, czy też był otoczony zawodnikami przeciwnej drużyny. Dzięki wszystkim tym zmiennym, a są przeróżne modele, które szacują prawdopodobieństwo danego podania, możemy uzyskać bardziej wartościowe dane na temat konkretnego atrybutu zawodnika - w tym wypadku umiejętności podawania i rozgrywania piłki. Analityka radzi sobie więc z tym tak, że buduje szerszy kontekst, operuje na większym poziomie szczegółowości, dokładając kolejne zmienne stara się lepiej zrozumieć to, co naprawdę się na boisku dzieje.

Rozmawiał Wojciech Górski

Część II rozmowy z Michałem Jaroniem ukaże się w przyszłym tygodniu. 

W bonusie Michał Jaroń podzielił się z nami jeszcze jedną ciekawostką, dotyczącą związku piłki nożnej z rozkładem Poissona. Raz jeszcze oddajmy mu głos:

"Co ciekawe rozkład Poissona znajduje zastosowanie w wielu innych dziedzinach, bardzo odległych od piłki nożnej. Na przykład słynny matematyk, mający polskie korzenie - Władysław Bortkiewicz - opisywał tym rozkładem liczbę zabitych przez kopnięcie konia każdego roku w armii pruskiej. Rozkład Poissona powinien dobrze opisywać zdarzenia niezależne występujące ze stałą częstotliwością w danym okresie.

Dlatego właśnie dobrze spisuje się w przypadku piłki nożnej - w meczu pada średnio 2.6 gola. Co prawda można polemizować, że gole nie są zdarzeniami od siebie niezależnymi i faktycznie istnieją rozkłady opisujące jeszcze dokładnie prawdopodobieństwo zdobycia danej liczby goli, jednak rozkład Poissona jest używany najczęściej, bo daje wystarczająco dobre przybliżenie"

Reklama

Reklama

Reklama

Strona główna INTERIA.PL