Achtergrond
Zo loop je een marathon
Hoe deel je het beste een hardloopwedstrijd in? Leidse informatici beantwoorden die vraag door algoritmes los te laten op gegevens van de Boston Marathon. Arie-Willem de Leeuw van het Leidse informatica-instituut LIACS loopt hard: halve marathons. ‘Ik merkte zelf al snel dat je wilt voorkomen dat je te snel van start gaat. Wat bij mij het beste past is inhouden in het begin, hoe moeilijk dat ook is, zodat je later jezelf niet te hard tegenkomt.’ Het is een vraag die iedere hardloper zal herkennen: hoe kan je je race het beste indelen? Langzaam beginnen en dan steeds sneller? Snel beginnen en daarna zo lomp mogelijk doorbikkelen als de verzuring toeslaat? Of juist zoveel mogelijk in hetzelfde tempo proberen te rennen?
donderdag 22 november 2018

Wie een beetje rondklikt op verschillende hardloopsites, ziet dat elke theorie zijn eigen aanhangers heeft.

De Leeuw heeft een aanzetje voor een antwoord. Hij is namelijk niet alleen geïnteresseerd in hardlopen als hobby, hij is ook gespecialiseerd in het gebruik van big data voor sportvragen.

‘Dat is een grote hoeveelheid gegevens die in korte tijd is verzameld, en die rijk is. Daarmee bedoel ik dat de data een hoop features – eigenschappen - hebben’, zo legt hij zelf die term uit. De Boston Athletic Association, organisator van de beroemde Boston Marathon en de kortere afstanden die erbij horen, had zulke hardloopgegevens.

Signaaltje

De Leeuw: ‘We hadden al eerder contact met de Leiden Marathon, maar dat is een vrij klein evenement.’ Deelnemers aan de Bostonse hardloopwedstrijden krijgen een startnummer met een chip erin. Op het parcours liggen matten die daarmee samenwerken: als de renner over de mat loopt, geeft de chip een signaaltje af. Dat levert voor elke hardloper een set gegevens op: zoveel minuten over de eerste vijf kilometer, zoveel over de eerste tien, zoveel over de hele race, enzovoort.

Al die datapunten maal de 120.472 mensen die in 2015, 2016 of 2017 de tien kilometer, de halve of de hele marathon liepen, en waar je ook het geslacht en de leeftijd van weet: big data. De Leeuw: ‘Nadat we de data hadden verzameld, moest die nog opgeschoond.’

Je weet als mens dat de hoeveelheid tijd die een hardloper over een afstand doet niet negatief kan zijn, maar een computer moet je dat uitleggen. Ook gevallen waarin iemand volgens de gegevens ruim sneller had gelopen dan de gemiddelde snelheid tijdens het wereldrecord werden uit de dataset gehaald: samen iets meer dan één procent van alle gevallen. ‘Het kan een fout zijn in de elektronica, of een foutje bij het invoeren’, legt De Leeuw uit. ‘Dat soort uitval heb je altijd met zulke grote datasets.’

‘We hebben er ook voor gekozen om alleen de eerste keer dat iemand meedeed te gebruiken voor ons onderzoek, om het zuiverder te houden. De ervaring bij eerdere keren beïnvloedt je prestatie de volgende keren. Als je de eerste keer kapot ging, doe je het daarna wel anders. We wilden ook voorkomen dat analyses zich te veel op dezelfde personen gingen richten. Overigens doen verreweg de meeste mensen maar één keer mee, zagen we.’ Niet eruit gefilterd: de professionals. ‘Dat zijn er zo weinig dat ze geen noemenswaardige invloed hebben op de data.’

Patroon

Binnen de gepoetste dataset moet je natuurlijk nog corrigeren voor leeftijd, en daarna lieten De Leeuw en zijn collega’s er een al eerder geprogrammeerd algoritme op los. ‘Dat zoekt subgroepen die het meest afwijken van de totale populatie. Wie presteren er beter of slechter dan het gemiddelde, en wat hebben die lopers gemeen? Je zoekt het patroon dat het meest naar voren komt.’

Nou?

‘De groep die vrij vlak loopt, met een constante snelheid dus, presteert in het algemeen het best’, aldus De Leeuw. Bij de mannen die de hele marathon liepen, had de optimale subgroep minder dan 7,5 procent afwisseling van snelheid, zo valt te lezen in de publicatie van De Leeuw en co, in het vakblad Big Data. Bij de vrouwen zit het nog strakker: daar had de beste groep minder dan 4,5 procent verschil in looptempo.

Om precies te zijn: in het looptempo op het grootste gedeelte van het parcours. Je mag af en toe ietsje sneller of langzamer. Gelukkig maar, want met zo’n 150 meter verschil in hoogte is de Boston Marathon naar Hollandse begrippen behoorlijk bergop en bergaf. Ter vergelijking: bij de marathon in Leiden is het hoogteverschil slechts 13 meter. ‘Eén of twee stukjes waarop je wat harder of langzamer gaat, dat kan’, zo vat De Leeuw het samen. ‘Maar je moet er niet te veel van hebben.’

Strategie

Wat allemaal niet wil zeggen dat de vraag over hoe je je looptempo moet bepalen hiermee definitief is opgelost. ‘Dat er een verband is, betekent niet dat dat verband ook causaal is’, waarschuwt de informaticus. ‘Het kan best dat deze groep nog harder had gelopen als de lopers niet volgens deze strategie gedoseerd hadden.’

Je kan je bijvoorbeeld voorstellen dat de aanpak in werkelijkheid niet uitmaakt, maar dat de fanatiekste renners allemaal advies inwinnen bij een hardloopgoeroe die een constant tempo dicteert. Dan zou je dezelfde uitslag krijgen.

‘Mensen denken vaak dat onderzoek naar big data de antwoorden op allerlei vraagstukken geeft. In werkelijkheid brengen we meestal juist vragen omhoog’, aldus De Leeuw. ‘We vinden een verband, maar wat betekent het? Daar moet je eigenlijk een ander soort onderzoek voor doen. Je zou bijvoorbeeld bij één loper moeten kijken, die heel veel marathons heeft gedaan volgens verschillende strategieën. Of je kan dit onderzoek van ons gebruiken als aanzet om een experiment uit te voeren. Maar dat is aan een ander vakgebied; de sportwetenschap.’

Door Bart Braun