Vakevaluaties deugen niet en leiden tot grote ontevredenheid, zo blijkt uit een rondgang van Mare langs docenten en opleidingscommissies. Er is weinig respons en de antwoorden zijn vaak bevooroordeeld of seksistisch. De betrouwbaarheid van de beoordelingen blijkt ook twijfelachtig, want online evaluatieformulieren zijn door iedereen én meerdere malen in te vullen.
‘Bij ons worden de scripties digitaal beoordeeld en daar is echt een dramatisch lage respons bij de evaluaties’, zegt Cynthia van Vonno, voorzitter van de opleidingscommissie politicologie. Het is een veelgehoorde klacht. Tijdens de coronaperiode is de universiteit overgestapt op digitaal evalueren van vakken. Nu het onderwijs fysiek is, zijn sommige opleidingen en faculteiten niet teruggekeerd naar evaluaties op papier.
En dat merken de opleidingscommissies in het aantal ingevulde evaluaties. ‘Je kan makkelijk een respons van slechts vijf studenten hebben’, zegt Van Vonno. ‘Daarom hebben we er als opleidingscommissie op gestaan dat als er een gezamenlijk afsluitend moment is van een vak, dat er dan papieren evaluaties zijn. Anders kunnen we er niks mee.’
Ook filosoof Frank Chouraqui heeft last van de lage opkomst. Als voorzitter van de commissie Basis Kwalificatie Onderwijs (BKO) van de faculteit Geesteswetenschappen moet hij beoordelen of academici in opleiding gekwalificeerd zijn om colleges te geven, mede op basis van evaluaties. ‘Het aantal respondenten is gedaald, en dat verhoogt de bias in de antwoorden. Als je een groep hebt van tweehonderd studenten van wie er maar twintig een evaluatie invullen, is dat statistisch gezien onbruikbaar. Op basis daarvan kunnen wij als BKO-commissie geen afgewogen oordeel vormen.
‘Daar komt nog bij dat de meest enthousiaste én de meest kritische studenten de enquête invullen. Statistisch gezien verwacht je dat er bij die twee extremen meer studenten zitten die ook nog een bias hebben, bijvoorbeeld een genderbias. Dus we krijgen als commissie minder evaluaties die we kunnen gebruiken om onze eigen bias te vermijden, en de evaluaties die we krijgen zijn vaker bevooroordeeld.’
Voor zover de evaluaties wel worden ingevuld, is Van Vonno ook niet tevreden. ‘De eerste paar vragen van het evaluatieformulier zijn op het hoogste niveau vastgesteld en bedoeld om programma’s onderling te kunnen vergelijken. Die mogen wij als instituut of faculteit niet aanpassen. Maar wij vinden veel van die vragen helemaal niet van toepassing: ze zijn zo open dat je iemands kleding of persoonlijkheid gaat beoordelen. Je kan er niet zo veel mee als opleidingscommissie. We vragen ons ook af wat ze eigenlijk aan het vergelijken zijn?’
Discriminatie
De raad van de faculteit Governance and Global Affairs (FGGA) stelde vorig jaar al vragen over de kwaliteit van de evaluaties. Studenten lieten stuitend commentaar achter, zoals ‘De docent was superkut!’ of ‘Lekker jurkje had ze weer aan tijdens het laatste college’.
Ook de docenten die Mare nu spreekt, zeggen discriminerende opmerkingen te krijgen. ‘Ik wil niet in detail ingaan op wat ik allemaal heb gezien, maar ik heb zeker opmerkingen gelezen die kwetsend waren of specifiek tegen mij gericht waren’, zegt Aris Politopoulos, voorzitter van de opleidingscommissie archeologie. ‘En ik ben nog een witte man, dus het is nog moeilijk om echt iets discriminerends te zeggen. Die opmerkingen waren wel een zeer kleine minderheid, misschien maar een handjevol over de laatste negen jaar. Maar ik hoor van collega’s dat ze vaker discriminerende opmerkingen krijgen in evaluaties.’
‘Ik zie soms studenten die in evaluatie zeggen dat een docent slecht is omdat ze een slecht cijfer hebben gehaald of omdat ze zich niet gemotiveerd voelen’, zegt filosoof Chouraqui. ‘Ook zie ik in de negatieve evaluaties studenten die gewend zijn om een gesprek te domineren. Als een docent – zeker een vrouwelijke docent – dat niet toestaat, lijkt het alsof ze daarover klagen.’
‘We zien zeker een bias tegen vrouwen’, beaamt Marcel van Daalen, voorzitter van de opleidingscommissie sterrenkunde. ‘En dat is volgens onderzoek al vijftig jaar bekend. En toch blijven we datzelfde systeem gebruiken.’
Sterrenkunde gebruikt geen online evaluaties, en heeft dus wel een hoge respons. Toch zijn daarmee de problemen niet verholpen, zegt Van Daalen. ‘Dat maakt het iets makkelijker om die uitschieters eruit te halen. Als je een lage respons en alleen zulke extremen hebt, is dat natuurlijk een groot probleem. Maar zelfs met een hoge opkomst is die bias tegen vrouwen nog steeds duidelijk aanwezig. Dat is iets waarvan we niet echt weten hoe we het kunnen oplossen.’
Anoniem
Dat de evaluatieformulieren anoniem zijn, betekent niet alleen dat studenten zich vrij voelen om kwetsende opmerkingen te maken over docenten. Online formulieren kunnen de betrouwbaarheid van alle evaluaties ondermijnen. Meerdere docenten verspreiden namelijk online evaluaties met een link of QR-code die voor alle studenten hetzelfde zijn en waarvoor ze niet hoeven in te loggen. Daardoor is de anonimiteit van de deelnemers gewaarborgd, maar het betekent ook dat rancuneuze studenten meermaals zeer negatief commentaar kunnen geven, of dat zelfs een docent zichzelf een goede score kan geven.
Van Vonno is hiervan op de hoogte, maar reageert desondanks laconiek. ‘Je kan het formulier inderdaad meerdere keren invullen. Dus als je een hekel hebt aan een docent of je bent een enorme fan, dan kan dat de resultaten beïnvloeden. Maar omdat bij politicologie de responsrede zo dramatisch laag is bij de digitale formulieren, maak ik me er geen zorgen om.’
Tekst gaat door onder kader
Mario de Jonge is onderzoeker bij het Interfacultair Centrum voor Lerarenopleiding, Onderwijsonderzoek en Nascholing (ICLON), waar hij onder andere kijkt naar de effectiviteit van vakevaluaties, ook in samenwerking met LLInC, het onderdeel van de universiteit dat de evaluaties verzorgt.
‘Er is een groot aantal studies waar de betrokkenheid van studenten vrij laag is. Omdat die evaluaties zo vaak aan bod komen is er wel een bepaalde mate van evaluatie-moeheid. Daardoor zie je ook dat studenten niet goed opletten bij het invullen. Stel een geplande gastdocent komt niet opdagen bij een college, dan vult een meerderheid van studenten alsnog een beoordeling in over hoe diegene lesgaf.
‘Er is een meta-analyse die laat zien dat er eigenlijk weinig evidentie is dat er een verband is tussen hoe studenten inschatten dat de kwaliteit is geweest van het onderwijs en hoe ze daadwerkelijk gepresteerd hebben. Er zijn studies die zelfs suggereren dat er een omgekeerde relatie kan zijn. Als een docent de lat hoger legt kan de evaluatie omlaag gaan, ondanks dat die hogere eisen op langere termijn juist van toegevoegde waarde bleken.
‘Daarnaast heb je ook allerlei vormen van bias. Mannen worden doorgaans beter beoordeeld dan vrouwen. Als je wat soepeler bent met cijfers geven doet dat al snel de ronde en kan je beoordeling omhoog gaan. Er is ooit een experiment uitgevoerd waarbij chocoladekoekjes uitgedeeld werden. Dat leverde ook hogere evaluaties op.
‘Je kunt je afvragen of je als docent heel veel hebt aan een cijfer als beoordeling, of dat het handiger is dat je concrete handvatten krijgt over hoe je je onderwijs zou moeten aanpassen. Nu weet je vaak alleen dat iets niet zo goed beoordeeld is.
‘Als je een vak al vier jaar geeft met dezelfde docenten, moet je het dan elk jaar opnieuw evalueren? Dan zou je er ook voor kunnen kiezen om het minder vaak te evalueren. En als je dat dan doet om het wat breder en intersiever te doen.’
Ondanks hun kritiek zijn alle docenten het erover eens dat het belangrijk is om studenten om hun mening te vragen. Van Daalen is als lid van projectgroep Academia in Motion actief op zoek naar een alternatief. ‘We moeten onderwijs evalueren op een manier die minder biases heeft en meer informatie geeft. Het is belangrijk dat we feedback ontvangen van studenten, maar we willen dat er op meer manieren wordt gekeken naar onderwijs. Bijvoorbeeld dat docenten ook elkaars colleges beoordelen. Zo krijg je een goed beeld of het vak en de manier van lesgeven aansluiten op de rest van het curriculum. Zoiets is er nu niet.’
Alternatieven
Politopolous experimenteert al met andere vormen van evaluaties. ‘In mijn colleges probeer ik een open discussie te creëren waar iedereen zich vrij kan uiten over wat ze van het vak vinden. Dat heeft natuurlijk zijn eigen nadelen, bijvoorbeeld dat het niet anoniem is, maar voor mijn gevoel zijn die discussies zeer nuttig. Studenten uiten daar openlijk hun kritiek en geven ze nuttige tips ter verbetering. Bij die discussies daar heb ik nooit enige vorm van discriminatie gezien, mensen zijn in het echt veel respectvoller. En studenten voelen zich in een volwassen discussie ook serieuzer behandeld.’
‘Ik denk niet dat wij als BKO-commissie helemaal van evaluatieformulieren af willen’, zegt Chouraqui. ‘Maar om eerlijk te zijn heb ik nog nooit iemand aan de faculteit ontmoet die níet sceptisch was over de evaluaties. Zelfs in de best denkbare soort kom je niet onder nutteloos commentaar uit, want je wil wel dat studenten hun zegje kunnen doen. In dat geval moeten wij als lezers wijs zijn.’
Mare vroeg het Leiden Learning & Innovation Centre (LLInC), het onderdeel van de universiteit dat de evaluaties verzorgt om een reactie op de zorgen van de docenten.
Data- en AI-manager Michiel Musterd laat weten dat ‘de bruikbaarheid van resultaten bij een zeer lage respons afhangt van een aantal factoren. Niet alleen het absolute aantal ingevulde evaluaties maar ook hoe uniform de waardering is, speelt een rol. Over het algemeen hebben kwantitatieve evaluaties niet zozeer een wetenschappelijke waarde, maar vooral een signaalfunctie waarmee eventuele minder goed scorende aspecten van een vak kunnen worden getraceerd.’
Het is bij het LLInC bekend dat evaluaties soms meermaals worden ingevuld, aldus Musterd. ‘Wij bieden drie opties aan de faculteiten voor de evaluaties: op papier, via een generieke link en via een persoonlijke link. Een persoonlijke anonieme link kan maar één keer worden gebruikt. Bij evalueren op papier is dit al iets minder waterdicht, maar is het wel lastig omdat studenten slechts een evaluatieformulier uitgereikt krijgen. Via een generieke link is het iets makkelijker, maar vraagt het nog steeds een behoorlijke inspanning van studenten om meermaals het volledige formulier in te vullen en ook nog eens op dusdanige manier dat het statistisch niet opvalt tijdens de verwerking.Het is uiteindelijk aan de faculteiten of opleidingen zelf om een keuze te maken op welke manier ze willen evalueren en de afweging te maken tussen (onder andere) het risico op meermaals invullen en het gemak van distributie van de evaluatieformulieren.’
Over kwetsende of discriminerende opmerkingen die docenten soms ontvangen, zegt Musterd: ‘We begrijpen dat dit voor docenten bijzonder onprettig kan zijn. De student is echter zelf verantwoordelijk voor wat hij schrijft, ook al is het anoniem. De opleidingen krijgen van ons de ongecensureerde evaluatierapportages. Zij kunnen er zelf voor kiezen seksistische, racistische of kwetsende opmerkingen te verwijderen alvorens de rapportage naar andere betrokkenen zoals docenten te sturen. Het is niet aan ons om antwoorden te veranderen of te verwijderen.’
LLInC is samen met Mario de Jonge bezig met experimenten naar andere beoordelingsvormen, bijvoorbeeld een evaluatie tijdens het vak in plaats van aan het eind, waarbij studenten zelf kunnen aangeven over welke thema’s ze in een open vraag een reactie willen achterlaten. Die antwoorden kunnen vervolgens de docent informeren over mogelijke aandachtspunten.