Er zit een luchtje aan de kritiek op de haringtest

Mark Reid

donderdag 8 juni 2023

Na kritiek dat de jury partijdig zou zijn, besloot het AD met de beroemde jaarlijkse haringtest te stoppen. Maar die beschuldigingen deugen helemaal niet, ontdekte statisticus Richard Gill.

Als hij niet bezig is met het verdedigen van ten onrechte veroordeelde verpleegkundigen, eet de Leidse statisticus Richard Gill graag een harinkje.

En hoe kom je erachter waar je de beste haring kan halen? Door de jaarlijkse haringtest van het AD, die jarenlang dé autoriteit was op het gebied van de Hollandse Nieuwe.

Was, inderdaad, want de test bestaat niet meer. In 2017 en 2018 bracht de econoom Ben Vollaard rapporten uit waarin hij stelde dat er gefraudeerd werd met de resultaten.

Uit een statistische analyse van de jurering zou volgens Vollaard blijken dat haring die bij een specifieke groothandel vandaan kwam systematisch een betere beoordeling kreeg. Bovendien zouden haringkramen in de buurt van Rotterdam ook onterecht hogere punten krijgen. De beschuldigingen bleken voor het AD voldoende om definitief met de test te stoppen.

Maar volgens Gill, emeritus professor in de statistiek, en een collega van de Chinese Fudan University zit er een luchtje aan de conclusies van Vollaard.

Samen publiceerden ze een paper in het Scandinavian Journal of Statistics die de haringtest vrijpleit.

Wat was uw reactie als ervaren statisticus toen u het onderzoek van Vollaard voor het eerst zag?
‘Ik kreeg de indruk dat het amateuristische economenstatistiek was. Ze hebben volledig standaard methodologie uit de kast gehaald zonder erbij na te denken. Het is allemaal eerstejaarsstatistiek. En als ik dat zo zie, vind ik het heel gewaagd om met de zware conclusie te komen dat de haringtest doorgestoken kaart was.’

‘Het enige wat ik echt kan constateren is dat je met deze data bijna niks statistisch kan constateren’

Volgens het onderzoek zou vis die bij groothandel Atlantic vandaan kwam een streepje voor hebben gehad bij de jury. Kun je dat afleiden uit de statistiek?
‘Vollaard heeft een model gemaakt waarmee hij de eindscore van een haringkraam kon voorspellen op basis van de eigenschappen van de haring die de jury heeft vastgesteld, bijvoorbeeld het gewicht en de temperatuur. Dat werkte aardig.

‘Vervolgens heeft hij daar een variabele aan toegevoegd, namelijk of de vis wel of niet bij groothandel Atlantic vandaan kwam. Wij hebben dat model nagemaakt en het resultaat is dat er geen effect te zien is. Het model zegt dat vis van Atlantic precies zo scoort zoals het hoort te scoren op basis van de meetbare maatstaven.’

Hoe kom je dan bij de conclusie dat er gefraudeerd is?
‘Vollaard moet ook gezien hebben dat er volgens het statistische model geen effect is, dus zegt hij dat de verschillen in de scores te wijten zijn aan de subjectieve delen van de jurering. Dat is vooral hoe goed gerijpt de haring is volgens de juryleden. Dat kun je wel zeggen, alleen kun je dat totaal niet onderbouwen. De data zijn zeer beperkt.

‘Het enige wat ik echt kan constateren is dat je met deze data bijna niks statistisch kan constateren.

‘Je vraagt me in feite om te geloven dat de jury systematisch het onderscheid tussen rijp en overrijp bewust in het voordeel van die twintig winkeltjes van Atlantic heeft veranderd. Ik denk eerder, en dat is mijn eigen gevoel, dat mensen die jarenlang haring proeven het verschil in smaak tussen verschillende rijpheden van haring goed en gemotiveerd kunnen benoemen, net zoals we wijn of kaas kunnen beoordelen.’

En hoe zat het dan met visboeren in de buurt van Rotterdam die een hogere score kregen?
‘Daar is wel een effect te zien, maar dat heeft een andere oorzaak dan dat Rotterdamse zaken bewust zijn voorgetrokken. De test was oorspronkelijk voor lokale haringkramen in onder andere Rotterdam en Scheveningen, georganiseerd door het Rotterdams Dagblad (dat later in het AD is opgegaan, red.). Het probleem is dat de winkels die meededen aan de test zichzelf hadden opgegeven. Het was geen willekeurige steekproef van alle visboeren. Verkopers die goed scoorden deden vaak het daaropvolgende jaar weer mee, visboeren die laag scoorden niet. Dus na jaren testen deden vooral de betere haringkramen uit die regio nog mee.

‘Denk je dat dat ze in Drenthe of Limburg weten hoe haring moet smaken?’

‘Met de tijd heeft de test zich uitgebreid naar meer iets nationaals en doen er nu ook haringzaken uit Drenthe of Limburg mee. Dat waren vaak nieuwe bedrijven die probeerden een soort Michelinster te krijgen voor hun vis. Zo ontstaat het effect dat aan de kust de geteste vis heel goed scoort, verder van de kust blijft het een beetje een mengelmoes. Langs de kust heb je bovendien elke zomer enorm veel toeristen en plekjes waar je haring kan eten. Daar is enorme concurrentie en hoge kwaliteit. De verkopers en kopers weten hoe haring hoort te smaken. Denk je dat dat in Drenthe of Limburg ook zo is?’

Is dit paper een waarschuwing aan economen die te makkelijk met statistiek omspringen?
‘Dit is een casus die goed gebruikt kan worden in statistiekonderwijs. Ook voor economen in opleiding, mag ik hopen.

‘Ik denk dat we meer goed opgeleide statistici moeten inzetten in alle vakgebieden waarbij statistiek wordt toegepast, in plaats van gewoon op een knop te drukken in een computerprogramma. Je hebt mensen nodig die weten waarmee ze bezig zijn.’

Heeft u zelf al haring op dit jaar?
‘Helaas niet! En ik ga over een paar dagen met vakantie dus ik moet de nieuwste missen. Maar als ik het haal is het meestal op het station in Leiden of bij Simonis in Scheveningen.’

Reactie Ben Vollaard: ‘Deze kritiek is tendentieus en niet vakinhoudelijk’

Gevraagd om een reactie stuurde Ben Vollaard samen met co-auteur Jan van Ours het volgende bericht:

‘Wij staan volledig achter de resultaten van ons onderzoek. Dat is na peer review in een wetenschappelijk tijdschrift gepubliceerd. Richard Gill is door het AD betaald om kritiek op het onderzoek te leveren. Hij heeft dus een belangenconflict. Een klacht die het AD vijf jaar geleden over ons onderzoek indiende – mede op basis van de kritiek van Gill – is ongegrond verklaard. Gill kan dit klaarblijkelijk niet loslaten. Zijn kritiek is tendentieus, niet vakinhoudelijk. Zijn reactie zegt meer over hem dan over ons onderzoek.’

Desgevraagd geeft Gill aan dat hij in 2018 inderdaad in opdracht van het AD het onderzoek van Vollaard heeft bekritiseerd.

Het huidige onderzoek dat dit jaar is gepubliceerd in het Scandinavian Journal of Statistics vloeit daar inhoudelijk uit voort. In dat artikel noemt hij ook dat hij in 2018 is betaald.

Lees ook

Draai je telefoon een kwartslag, dan ziet onze site er een stuk beter uit!