PÅ FD: Paulinho, Paulsen, Olsson… algoritmen visar allsvenskans toppspelare
Vi har alla våra egna åsikter om vilka spelare som är bäst i allsvenskan. Men vad säger en matematisk uträkning av spelarprestationer om vem som var bäst i år? Enligt analysföretaget Twelves algoritm så är årets bästa spelare BK Häckens skyttekung Paulinho.
– Statistik och data Det här är ännu viktigare för exempelvis svenska klubbar, som har en mindre budget att värva spelare för än de största klubbarna ute i Europa. Att man har en ”edge” på ett annat sätt, säger matematikprofessorn David Sumpter från Twelve till FotbollDirekt.se.
David Sumpter kommer ursprungligen från England men är i dag bosatt i Sverige och professor i matematik vid Uppsala Universitet. Sedan flera år tillbaka har han parat ihop två stora intressen: Matematik och fotboll. Sumpter har skrivit boken ”Soccermatics – Mathematical Adventures in the Beautiful Game”, och har även varit rådgivare åt klubbar i Premier League.
Sumpter är också upphovsman och grundare av analysföretaget Twelve. Han tog fram en algoritm som mäter spelarprestationer i fotboll. Man använder statistik, machine learning, visualization och AI för att tolka vad som händer på planen, och genom att sätta poäng på alla bollkontakter en spelare har under matcher så rankas spelarna.
– Jag är matematiker i grunden, och min egen forskning gick ut på att studera djurliv, fågelflockar och fiskstim. Ett exempel jag hade när jag föreläste var hämtat från fotboll, och jag kunde inte släppa det. Innan jag började med boken så hade jag ett intresse av fotboll och min son spelade mycket. Jag är en vanlig fotbollssupporter, alltid varit Liverpool-fan. Jag har förstått mycket mer om fotboll under den här resans gång. Men framför allt är jag besatt av matematik, och fotboll är helt enkelt ett väldigt bra sätt att presentera matematik på, säger han till FD.
Med den senaste tekniken så finns större möjligheter att bryta ner en spelares insatser på planen och inte bara gå på klassiska stats, säger Sumpter.
– Jag tog fram den här algoritmen tillsammans med några studenter. Mycket av den vanligaste statistik som funnits tillgänglig fram till nu, den är inte så jättevärdefull om man vill veta något om prestationen. Ett exempel är bollinnehav. Att man slår bra passningar är mycket viktigare för att laget ska vinna än om man har possession inom laget egentligen. Du har också completion rate som är jätteviktigt. Om man kan slå en lite mer riskabel passning som leder till mål, det ökar chanserna rejält.
– Och samma sak om man ska värdera spelare, det blir problematiskt om man koncentrerar sig på mål, för det är bara vissa spelare i laget som gör mål. Så man kanske tar ett steg tillbaka och kollar på assists. Men hälften av de mål som görs i fotboll har ingen assist. Vi har velat skapa en algoritm för varje sak som händer på planen, och sedan skapa ett poängsystem för det utifrån hur mycket den enskilda aktionen bidrar till att öka chanserna till mål.
Ett begrepp som kommit på bred front de senaste åren är expected goals (förväntade mål), alltså en värdering av skapade målchanser och hur många mål ett lag borde ha gjort i en match. Twelve bygger på det:
– Förenklat kan man säga att vi har flyttat ut expected goals över hela banan. Och vi har även vänt på begreppet, dvs att man beräknar sannolikheten till mål åt andra hållet också och värderar försvarsinsatser som förhindrar mål bakåt.
– Vi använder ett annat begrepp också, possession chain. Alla sekvenser i matchen bryter vi ner i possession chains (bollinnehavskedjor). Varje possession chain bryts när andra laget har två bolltouch i rad, mindre än två bolltouch och vi låter vi possession chain fortsätta. Så först tar vi alla possession chains, och sedan kollar vi var i kedjan som chanserna var störst att hota motståndarlaget.
Spelarna får poäng utifrån insatser i varje enskild bollsekvens, där bidragen till att göra respektive förhindra mål värderas.
– Vi har data på alla matcher över tre-fyra säsonger nu. Om bollen var på det här stället, hur många gånger blev det mål på den passningen därifrån? Vi tar antalet gånger det blev mål och för in i datan. Det här är naturligtvis en grov beskrivning eftersom det aldrig är exakt samma passning som slås mer än en gång. Men det finns en korrelation mellan liknande passningar. Algoritmen lär sig vilken typ av passning som leder till mål, och vilken typ av passning som inte gör det.
– Vi började med principen 1 mål=1 000 poäng. Om mål är 100 procent, så är ett mål värt 1 000, om en målchans är 50-procentig så är det värt 500. En sidledspass mellan två backar på egen planhalva, den gör inte så mycket för att öka sannolikheten att ditt eget lag gör mål. Man kan säga utifrån statistiken att den ökar sannolikheten för mål med 0,2 procent. Och det finns till och med passningar som minskar chansen att egna laget gör mål framåt.
– Så poängen står i proportion till hur stor procentuell chans du har att göra mål, och likadant defensivt: Om man gör en bollvinst… om den sker långt utanför straffområdet så är inte risken så stor att det hade blivit baklängesmål utan den bollvinsten. Men om man rensar på mållinjen, då kan man med stor säkerhet säga att det hade blivit baklängesmål annars. Så den rensningen värderas då högre.
Tittar du på fotboll med andra ögon nu än innan du skapade algoritmen?
– Ja absolut. Tidigare så tittade jag mycket mer vad som hände med bollen än hur lagen rör sig. Jag tror att jag är en mycket tråkigare person att titta på fotboll tillsammans med numera (skratt). Du vet, man sitter med sina kompisar och när det blir hörna för favoritlaget så börjar alla bara ”hörna, hörna”! Det är liksom 1,5 procents chans att du gör mål på en hörna, två procent max. Så då tar jag det lite lugnare än dem. Samtidigt så kommer en tiondel av alla mål som görs från hörnor, det är givetvis en viktig del i spelet. Men en enskild hörna, det är inte jättestor chans.
Han tar ett exempel från veckans match i Champions League, där favoritlaget Liverpool slog Napoli med 1-0. Sadio Mané i Liverpool brände flera målchanser.
– Ofta när jag tittar på fotboll med kompisar, de överskattar ofta hur stor chans man har att göra mål från olika lägen. Mané hade några 30-procentschanser mot Napoli, han missade tre stycken och det är ganska dåligt. Men samtidigt, det är inte helt oväntat att han skulle missa ett sådant enskilt läge. Det som gjorde det lite anmärkningsvärt var att han missade allihop.
– Men det är just det: Man har en tendens att vara sur på strikern i ens eget favoritlag när han missar. Men när man tittar på hur ofta det händer så finns det ofta en överskattning i hur sannolikt det egentligen är att göra mål i ett givet läge. Det här hör man hela tiden, även kommentatorerna svänger sig med det, att ”det här är en hundraprocentig målchans”. När det snarare är en femtioprocentig målchans i bästa fall. Expected goals-modellen funkar ganska bra här: Sista avgörande skottet är väldigt svårt att sätta. Det är helt enkelt en svår grej att göra. Och med exemplet Mané; att han kommer i många lägen, det betyder att han är en bra striker enligt våra mätningar.
Expected goals-principen finns även inbyggd i att bra framspelningar som inte leder till mål får en större effekt på poängen:
– Till exempel för en mittfältare som spelar i ett lag som inte gör så många mål. Om anfallaren inte gör mål på de lägen som mittfältaren sätter upp åt honom, så är det inte mittfältarens fel. Han har gjort sitt jobb redan. Utifrån en väldigt enkel statistik så går anfallarens missade mållägen också ut över mittfältaren, för han får inte den assist han kanske borde ha fått.
– Vi har till exempel kunnat se att Kristoffer Olsson i AIK slår många passningar som kommer från djupt på mittfältet och leder hela vägen fram till medspelare i farliga lägen nära motståndarmålet. Då ger det en högre poäng, även om han inte har så många assists (fem stycken).
Samtidigt berövas han ändå en ännu högre poäng om medspelaren missar än om han gör mål…
– Vi har pratat väldigt mycket om hur vi skulle göra med det. Det är lite godtyckligt oavsett hur man väljer att göra. Vi ger lite extra poäng om det är en assist. Det flera expected goals-modeller säger om att bidra med en assist, det är att det bidrar med 30 procent av målet. Kristoffer Olsson hade många passningar som borde lett till mål, och det belönas ändå med en hög poäng kontra mer ”säkra” passningar.
En mittfältare som är bra på att sätta tempot i matcher med kortpassningsspel, hur kan man värdera hans insatser om inte passningarna är av den arten att de leder till målchanser?
– Det finns inbyggt att man får poäng för alla slags passningar, bara olika hög poäng. En spelare som har väldigt mycket boll och slår många passningar, han samlar också poäng, om än att det krävs fler passningar.
– Vi hade till exempel en match i VM där Japan behövde en poäng för att gå vidare och där man försökte hålla boll. Så om man vill ”gejma” systemet, så kan man förstås komma upp i högre poäng med tillräckligt många sådana passningar. Om man kan hålla bollen i 1-0-ledning… jag menar en tvåpoängspassning, det kräver ganska många passningar för att ge poäng. Det var intressant med den matchen. Man kunde få fram ett statistiskt bevis hela tiden för hur de valde att spela.
I exempelvis en fantasy-tävling så ger man extra poäng åt en försvarare som gör mål, utifrån att sannolikheten är mindre på grund av hans mer tillbakadragna position…
– Ja, men vi bygger inte in positionen som de spelar på som man gör i fantasy. Gör man en försvarsinsats så får man poäng för oavsett var man spelar i utgångsposition. I ett välfungerande lag skulle alla spelare bidra med mycket poäng, då krävs det förstås att man har skickliga spelare på varje position. Men om man tittar på vissa lag i England som till exempel Burnley… det är alltid deras backar som hamnar högt upp på ratinglistorna, för de har så många defensiva aktioner i en match.
– Men sedan har vi också ”off the ball”-data. Om du är i närheten när motståndarlaget tappar bollen. Där fick till exempel Ngolo Kanté höga poäng under VM. Det är inte alltid han som vinner bollen, men han är i närheten av bollen vid i stort sett varje bollvinst som Frankrike har, vilket är anmärkningsvärt. Vi ger poäng till de tre spelare som är närmast motståndarna när de tappar bollen.
De största klubbarna i Europa är långt framme i utvecklingen med data, och nästa steg är att värdera löpningar:
– Jag var nere i Barcelona och presenterade vår algoritm för FC Barcelona i augusti. De har sitt eget system som är uppbyggt på samma princip som vi använder. Den tekniken vi använder, vi använder on the ball-data. Barca använder det men även tracking data, hur spelare rör sig på planen. Alltså att man kan gradera värdet av en löpning. Att en spelare rör sig i en riktning för att dra med sig motståndarförsvarare utan att själv få bollen till exempel. Och den utvecklingen är precis bara i sin linda, det kommer komma mer och mer.
– Jag upplever att alla svenska klubbar är medvetna om det här nuförtiden, men alla har kanske inte kommit så jättelångt med det. Det här är ännu viktigare för exempelvis svenska klubbar, som har en mindre budget att värva spelare för än de största klubbarna ute i Europa. Att man har en ”edge” på ett annat sätt.
Man tänker sig att ju fler matcher man har som data på, desto mer tillförlitligt är det… alltså att tio säsongers data är bättre än fem. Hur mycket sanning ligger det i det?
– Jag skulle nog säga både ja och nej där. På ett sätt stämmer det, rent matematiskt. Men fotbollen förändras också. En match från 1960-talet vore inte en bra modell att luta sig mot i dag, för sättet att spela och därigenom försöka vinna är helt annorlunda i dag.
– Fotbollsutvecklingen går så pass snabbt nu och man måste hitta en optimal punkt där, de flesta är överens om att den ligger på runt tre-fyra år bakåt i tiden. Vi använder de tre senaste säsongerna. Vår modell blir inte så mycket bättre för att vi får in fler säsonger än så i datan. Det är så många matcher som spelas under en enskild säsong, så det går absolut att luta sig mot det statistiskt.
Twelve har statistik från Champions League, Premier League, La Liga och Allsvenskan. Utan att ha följt allsvenskan tätt i år så ser David Sumpter stora skillnader bara genom att titta på datan från de olika ligorna.
– Det man kan se på allsvenskan kontra de stora ligorna är att det slås väldigt mycket fler längre bollar här. Det lag som är närmast utländska lag i spelet är Hammarby, de spelar med långa possession chains. Men även Hammarby, de är inte i närheten av antalet passningar som de största europeiska lagen slår.
– När man först såg Barcelona för sju-åtta år sedan och hur de spelade med den upplagan… då var det många Premier League-lag som försökte kopiera det, men det funkar inte för man måste ha spelare för det. Sedan är det inte självklart för mig att det inte skulle kunna finnas ett sådant lag i allsvenskan, det står i proportion till motståndare också. Men det krävs en oerhört skicklighet för att komma upp i det.
I de stora amerikanska bollsporterna som baseball och amerikansk fotboll, så har statistik länge använts både som stöd när man ska värva spelare men också som en kul ingrediens för de som följer sporten. I början på 2000-talet började det användas mer systematiskt, när baseballklubben Oakland Athletics började värva spelare utifrån statistik. Men de amerikanska sporterna är också enklare att ”räkna ut” säger David Sumpter.
– Fotboll är ett större matematiskt problem, och därmed också mer intressant för en matematiker. Det är geometri, passningsnätverk… en större komplexitet. En sport som baseball är inte så komplex ur ett matematiskt hänseende, det blir inte så stor utmaning. Jag skulle säga att fotboll är den mest komplexa bollsporten som finns. Jag kanske är lite biased där, men det är min åsikt.
Hur mycket kommer man kunna förklara när det gäller just fotboll?
– Det kommer alltid finns stora gränser. Mycket handlar om individer, det finns gränser för hur mycket man kan få fram av matematiken. Men jag tror att alla lag kan plocka fram en procent här och där från det här, och sett över en hel säsong så kan det ju vara avgörande för ett lag att få med sig den där procenten.
På topplistan nedan finns en hel del namn som många nog är överens om att de är toppspelare i allsvenskan. Paulinho är etta, framför Sundsvalls mittfältsess David Batanero och Hammarbys backbjässe Björn Paulsen. Men det finns också namn där som allmänheten nog inte skulle placera på en lista över allsvenskans 20 bästa.
– Det är precis som det brukar vara. Vi ser inte det här som ett facit, att vår topplista är den ultimata och att det är slutdiskuterat. Det är en utgångspunkt för diskussion. Statistik kan visa på mönster i spelet men det kan inte förklara hela spelet.
Topp 20 i allsvenskan säsongen 2018 enligt Twelve:
1. Paulinho, Häcken
2. David Batanero, Gif Sundsvall
3. Björn Paulsen, Hammarby
4. Jiloan Hamad, Hammarby
5. Kristoffer Olsson, AIK
6. Andreas Johansson, IFK Norrköping
7. Juanjo Ciercoles, Gif Sundsvall
8. Carlos Gracia, Gif Sundsvall
9. Viktor Elm, Kalmar
10. Romario, Kalmar
11. Simon Thern, IFK Norrköping
12. Carl Starfelt, IFK Göteborg
13. Tom Pettersson, Östersund
14. Serge-Junior Martinsson Ngouali, Hammarby
15. Nahir Besara, Örebro SK
16. Alexander Blomqvist, Trelleborg
17. Curtis Edwards, Östersund
18. Alexander Milosevic, AIK
19. Gudmundur Thorarinsson, IFK Norrköping
20. Rasmus Lindgren, Häcken