‘In sommige natuurkundige vakgebieden kun je simpelweg honderden miljoenen resultaten genereren’, zegt universitair hoofddocent psychologie Eiko Fried. ‘Maar dat geldt niet voor de sociale of klinische wetenschappen. Je kunt maar een beperkt aantal mensen onderzoeken in een klinische trial of een experiment.’
Daarom wordt er gebruikgemaakt van statistiek. Volgens Fried ‘is het belangrijkste doel van statistische methoden om te voorkomen dat we metingen moeten doen bij alle mensen in de gehele bevolking. In plaats daarvan doen we steekproeven en vervolgens worden er conclusies getrokken over de bevolking’.
In de competitieve wereld van het wetenschappelijk publiceren kunnen statistieken – en met name de zogenaamde p-waarde – de doorslag geven tussen het wel of niet publiceren van een artikel. De druk om alsmaar te blijven publiceren kan ertoe leiden dat onderzoekers twijfelachtige statistische gegevens gebruiken, waarbij ze selectief data uitkiezen en alleen de meest interessante p-waarden vermelden. Deze praktijk staat bekend als p-hacking. Het gebruik – en misbruik – van statistieken in onderzoek en de gevolgtrekkingen die op basis daarvan worden gemaakt, mogen dus best eens onder de loep worden genomen.
‘Ik zie vaak dat p-waarden verkeerd worden gebruikt of geïnterpreteerd’, zegt Fried. ‘Ze zijn niet heel gemakkelijk te begrijpen.’
Nulhypothese
Volgens Fried geeft een p-waarde aan hoe verrassend je data zijn met betrekking tot de nulhypothese. ‘De nulhypothese is in feite het tegenovergestelde van wat je voorspelt met je hypothese’, vertelt Anna van ‘t Veer, universitair docent methodologie & statistiek bij psychologie. ‘Een standaard voorbeeld van een nulhypothese is dat er geen effect is of geen verschil tussen groepen.’ Als je in je hypothese stelt dat mannen langer zijn dan vrouwen, dan is je nulhypothese dat er géén verschil is in hun lengte.
Stel dat je dit als onderzoeker wilt testen; dan meet je de lengtes van mannen en vrouwen en vergelijk je de lengteverschillen tussen de twee groepen, legt Fried uit. ‘Een statistische test geeft je dan een p-waarde die aangeeft hoe verrassend je bevinding is gegeven de nulhypothese. Als je een groot lengteverschil tussen de twee groepen vaststelt, is dit een zeer verrassend resultaat omdat je nulhypothese stelt dat er geen verschil is.’ Hoe verrassender het resultaat, hoe lager de bijbehorende p-waarde.
Van ‘t Veer plaatst hierbij wel een kanttekening: ‘Een kleine p-waarde kan ook puur toeval zijn.’ In veel onderzoeken moet de p-waarde lager zijn dan 0,05 om als significant te worden beschouwd. Dit staat gelijk aan een kans van 5%, of één op twintig, dat een resultaat wordt gevonden dat minstens zo extreem is, zelfs als de nulhypothese waar is en er geen daadwerkelijk verschil is tussen de groepen.
Als je een onderzoek doet waarin je de lengtes van mannen en vrouwen vergelijkt en een p-waarde van 0,05 hebt, betekent dit in de praktijk dat er nog steeds een mogelijkheid is dat er geen verschil is tussen de lengtes, maar dat je toevallig een groep bijzonder lange of korte mensen hebt gemeten. Als je twintig willekeurige steekproeven zou doen, kun je verwachten dat zo’n afwijkend resultaat één op de twintig keer voorkomt, gewoon door puur toeval.
Misbruik
Een p-waarde die nog lager is dan 0,05 verkleint de kans op zo’n afwijking, maar aangezien een p-waarde nooit nul kan zijn, is er altijd wel wat onzekerheid.
Fried ziet nog een potentiële valkuil. ‘Een p-waarde geeft niet aan hoe waarschijnlijk je theorie is.’ Zelfs onderzoekers vergissen zich hier wel eens in. ‘“Onze p-waarde is erg klein dus onze hypothese is juist”, zeggen ze dan. Helaas werkt dat niet zo. Je toont wel aan dat de nulhypothese erg onwaarschijnlijk is, maar dat ondersteunt nog niet jouw alternatieve verklaring.’
Zelfs nadat ze hun statistieken hebben uitgewerkt, moeten onderzoekers dus nog steeds goed opletten dat ze hun resultaten op de juiste manier interpreteren.
P-hacking was de afgelopen jaren een veelbesproken onderwerp in verschillende vakgebieden, van psychologie tot economie. Er is sprake van p-hacking wanneer onderzoekers een groot aantal statistische tests uitvoeren op de data totdat ze lage p-waarden vinden. Vaak kiezen ze er dan voor om alleen deze lage waarden te vermelden. Van ‘t Veer: ‘Als ze die waarden selectief rapporteren om zo positieve bevindingen te kunnen publiceren, leidt dat tot onbetrouwbare conclusies’.
Deze praktijken zijn volgens Fried niet zonder gevaar. ‘Een voorbeeld dat ik tegenwoordig vaak aanhaal is het gebruik van psychedelica voor het behandelen van geestelijke gezondheidsproblemen, want daar doe ik momenteel onderzoek naar.’ Hier kan misbruik van p-waarden leiden tot de goedkeuring van nieuwe medische behandelingen die ‘momenteel niet erg goed werken en niet veilig zijn’, aldus Fried.
Hoe kan misbruik van statistieken worden voorkomen, gezien de mogelijke gevolgen? ‘We moeten allemaal eerlijker en transparanter zijn’, zegt Fried. ‘Als de auteurs van al die papers die problematisch lijken te zijn hun data openbaar zouden delen, dan konden we hun resultaten gewoon controleren.’ Van ‘t Veer is het daarmee eens. ‘Dat anderen fouten in onze data en analysecodes kunnen vinden is juist een goede zaak.’
Maatschappelijke verantwoordelijkheid
Hedendaagse initiatieven om wetenschappelijk onderzoek transparanter te maken vallen onder de noemer Open Science. Van ‘t Veer, die samen met Fried en anderen de Open Science Community in Leiden oprichtte, wil met dit initiatief onderzoek ‘toegankelijker, inclusiever en transparanter te maken. Het maakt het voor anderen gemakkelijker om inzicht te krijgen in het onderzoeksproces in plaats van alleen het eindresultaat’.
Van ‘t Veer: ‘Als wetenschappers hebben we een maatschappelijke verantwoordelijkheid om ons werk naar behoren uit te voeren. Ik denk dat onderzoekers hun stappen zorgvuldiger doordenken en vastleggen als ze van plan zijn om hun werk te delen. Als je je hypotheses vooraf specificeert met behulp van zogenaamde preregistratie, kun je ervoor zorgen dat de statistische analyses die je uitvoert nadat je data zijn verzameld, valide zijn. Zo kun je niet in de verleiding komen om de meest gunstige p-waarde eruit te pikken en alleen die te vermelden.
‘Zelfs als een onderzoeker niet bewust van plan is iets verkeerds te doen, kunnen bepaalde beslissingen tijdens een statistische analyse de betrouwbaarheid van de resultaten beïnvloeden. De transparantie die Open Science biedt, helpt ons dus om ons werk geloofwaardiger te maken en beter af te stemmen op het daadwerkelijke bewijs.’