Wetenschap
Brandend statistisch maagzuur
Een wereldberoemde psycholoog had wel erg veel fouten in zijn artikelen staan, ontdekte de Leidse promovendus Tim van der Zee. ‘We moeten ons afvragen waarom het kan dat dit gebeurt.’
donderdag 16 februari 2017

De Amerikaanse hoogleraar Brian Wansink onderzoekt hoe, wat en waarom mensen eten, en hij is daar uitzonderlijk succesvol in. Zijn creatieve en mediagenieke onderzoeksopzetten zorgden voor talloze publicaties, goed verkopende populair-wetenschappelijke boeken, en concepten die nog bekender zijn dan zijn naam.

Die studie met soepkommen die van onderaf bij werden gevuld, die liet zien dat mensen gedachtenloos doorvreten in plaats van op te letten of ze wel vol zitten? Hij won er een Ig Nobelprijs mee, een onderscheiding voor grappige wetenschap. Dat idee dat je sneller verzadigd bent als je eten op een klein bordje ligt dan bij een groot bord? Dankzij Brian Wansink adviseren diëtistes u om kleiner servies te kopen. Mensen eten meer popcorn als je ze een grote bak popcorn geeft, en houden vervolgens glashard vol dat de hoeveelheid die ze aten absoluut niets te maken had met het formaat van hun popcornemmer. Brian Wansinks groep aan Cornell University liet het zien, en liet zien dat het zelfs gebeurt met oudbakken popcorn van twee weken oud.

Eind vorig jaar schreef hij een stukje op zijn blog, over een Turkse gastonderzoekster bij zijn groep. Wansink had een dataset, opgezet bij een veldstudie in een all-you-can-eat pizzarestaurant. Sommige bezoekers hadden een kortingsbon gekregen, en Wansinks hypothese was dat mensen minder zouden eten als het eten goedkoper was. Dat bleek niet zo te zijn, maar wellicht viel er nog iets anders leuks uit de data te peuren? Zijn eigen postdocs hadden daar geen zin in, maar de bezoeker wel. En zie: dankzij haar ijver en bereidheid om ‘het ijzer te smeden als het heet is’ had ze nu vier artikelen over de pizzastudie op haar naam!

Salami

Eigenlijk ging het daar meteen al mis. Je onderzoek uitsmeren over zoveel mogelijk kleine publicaties heet in wetenschapsland afkeurend salami slicing. Een beetje achteraf sleepnetvissen door je data en hopen dat er nog een verbandje gevonden wordt is ook niet netjes. Statistici spreken van P-hacking, omdat je op zoek gaat naar een lekker lage kanswaarde, aangeduid met de letter P. Om daar een artikel van te brouwen, moet je achteraf een verhaaltje verzinnen over hoe dat verband is ontstaan, maar je hoort dat juist van tevoren te doen. Ook hiervoor bestaat een smalend Engels woord: HARking: je bouwt een Hypothesis After Result.

Veel wetenschappers zien dat als relatief kleine zondes. Ook in Leiden maken sommige wetenschappers zich er wel eens schuldig aan. Je zou het niet moeten doen, eigenlijk. Onderzoekers worden echter maar al te vaak afgerekend op hun aantallen publicaties, en dus doen sommigen het toch.

De Leidse promovendus Tim van der Zee las Wansinks blog en pakte de vier pizza papers er eens bij. ‘Ik zag al snel dingen die niet kloppen. Dat als je op deze manier onderzoek doet, je geen artikel van hoge kwaliteit krijgt.’ De bezoekers van het pizzarestaurant moesten op een vragenlijst invullen hoe vol ze zich voelden, en dat werd dan gekoppeld aan de hoeveelheid pizza die ze gegeten hadden. Het restaurant had echter ook andere gerechten zoals pasta op het buffet staan, waar iemand toch ook verzadigd van had kunnen raken.

‘Dan ga je controleren of de nummers kloppen, en erover praten met bevriende onderzoekers. Je ziet zoveel verkeerde dingen, onmogelijkheden; we hebben uiteindelijk besloten om er maar over te publiceren.’ De pre-print staat sinds kort op de publicatie-site PeerJ onder de titel: ‘Statistical heartburn: An attempt to digest four pizza publications from the Cornell Food and Brand Lab.’ Het verhaal is met zichtbaar plezier geschreven, met steken naar Wansink in de voetnoten. De namen van de auteurs staan op volgorde van leeftijd ‘als benadering van de totale pizzaconsumptie in hun leven.’ In de appendix staan ongeveer 150 gevonden fouten bij elkaar.

Kerstboom

Honderdvijftig, ja. Van der Zee: ‘De meeste fouten zijn individueel niet zo erg, en het kan altijd gebeuren dat je iets verkeerd kopieert of zo. Het is met name de hoeveelheid fouten die zorgwekkend is. Er worden wel eens artikelen teruggetrokken waar vier of vijf van zulke fouten in staan. In één tabel hebben we alle foute cijfers rood gemaakt; dat is één grote kerstboom, want meer dan de helft klopt niet. Het is haast fysiek onmogelijk om zoveel fouten te maken.’

Van der Zee (blog) is zo’n onderzoeker die statistiek echt interessant vindt, en echt snapt wat de statistieksoftware doet – die zijn zeldzamer dan buitenstaanders misschien denken. Maar dat hoef je dus niet eens te zijn om veel van die ‘foute cijfers’ te kunnen vinden. ‘Je steekproefgrootte moet bijvoorbeeld tijdens het hele artikel even groot zijn, en als je twee artikelen baseert op dezelfde studie, moeten er in die twee artikelen wel dezelfde cijfers staan’, illustreert hij.

Daarnaast bestaat er iets dat een granularity error heet; die duikt op bij gemiddelden. ‘Stel: ik vraag twee mensen hoe vol ze zitten, en om dat uit te drukken in een geheel getal op een schaal van één tot tien. Dan kan het gemiddelde nooit 3,85 zijn; het is of een geheel getal, of er staat .5 achter. Voor twee mensen zie je dat onmiddellijk, maar ook voor grotere groepen, tot honderd, zijn er getallen die nooit het gemiddelde kunnen zijn. Het is een heel basaal principe. De voornaamste reden dat we ons verhaal nu publiceren is om andere wetenschappers erop te wijzen dat ze dit heel makkelijk kunnen controleren.’ Van der Zees co-auteurs Jordan Anaya en Nick Brown maakten er al eerder een gratis programmaatje voor, GRIM, dat gratis van Github te plukken is.

Van der Zee: ‘In principe beschuldigen we Wansink nergens van. We kunnen aantonen dat zijn waardes niet consistent zijn, of zelfs onmogelijk. Waarom dat zo is, daarover kunnen we geen conclusies trekken.’ Hebben de peer reviewers van de bladen waarin de groep uit Cornell publiceerde gefaald? ‘Absoluut. Die stukken zijn elk gereviewd door tenminste twee mensen, die hadden dit door moeten hebben. Als de steekproefgrootte verandert, moet er toch echt een lampje gaan branden. Daar heb je echt geen ingewikkelde algoritmen voor nodig.’

Excuses

Wansink reageerde in eerste instantie afwijkend op de verzoeken van Van der Zee om de dataset eens in te mogen zien. Na de publicatie op PeerJ draaide hij bij. Op zijn blog gaat hij diep door het stof, en maakt hij excuses aan de psychologie in het algemeen en de tijdschriften die de artikelen publiceerden in het bijzonder. De data wordt alsnog openbaar, zodat duidelijk kan worden hoe het zo mis heeft kunnen gaan.

Wat hij niet doet, is snel de schuld in de schoenen van die Turkse onderzoeker schuiven. Dat is heel verstandig van hem, want inmiddels doken in zeven andere artikelen van zijn groep ook al vergelijkbare fouten op. ‘Het is een positieve reactie, maar ik ben vooral geïnteresseerd in concreet gedrag dat zorgt dat de kwaliteit van wetenschappelijke literatuur wordt gegarandeerd. Dit is een mooi begin’, zegt Van der Zee.

‘Dit is niet de eerste keer, en het is niet de enige keer’, vervolgt hij. ‘We moeten ons afvragen waarom het kan dat dit gebeurt. Het grotere verhaal hier is dat wetenschappers in het algemeen onder hoge druk staan om veel te publiceren. Een van de lessen van deze kwestie zou moeten zijn dat we niet kwantiteit moeten belonen, maar kwaliteit. Zelf ben ik een grote fan van preregistratie: je legt van tevoren vast wat je vragen zijn, hoe je die wil onderzoeken, en welke analyses je gaat toepassen. Dán komt er al meteen een peer review, die een oordeel geeft over je methode. Zo voorkom je dat mensen eindeloos in een dataset gaan zitten zoeken tot ze iets publiceerbaars vinden. Dat leidt gewoon niet tot betrouwbare kennis.’