Hoe cesuurbepaling bijdraagt aan eerlijk onderwijs

Monika Vaheoja
Cesuurbepaling

Een leerling heeft een toets gemaakt. Maar hoe bepaal je het cijfer? Vaak is de helft van het totale aantal punten een 5,5 (“behaalde punten”/”totale punten”x9+1). Maar soms lijkt dat oneerlijk, omdat iedereen dan een heel hoog cijfer krijgt, of omdat er te veel leerlingen dreigen een onvoldoende te halen. We passen dan de cijferbepaling aan, waardoor meer of minder punten nodig zijn voor 5,5.

Maar zonder een duidelijk strategie is dit misschien geen goed idee. Een zwakke groep zou lagere cijfers moeten krijgen en een sterke groep zou hoge cijfers moeten krijgen op een toets. Maar soms zijn er dus teveel leerlingen die té hoge of té lage cijfers krijgen. Vaak wordt dit verschil veroorzaakt door de moeilijkheid van de toetsvragen – wat aangeeft hoeveel inspanning een leerling moet leveren om een vraag goed te beantwoorden. Sommige vragen zijn erg makkelijk, terwijl andere juist heel moeilijk zijn. Het is een natuurlijk proces dat een leerkracht de exacte moeilijkheid van de toetsvragen vooraf niet kan inschatten.

Dit maakt het toepassen van de eerstgenoemde formule en het willekeurig aanpassen van de grens voor een 5,5 discutabel. Het behalen van die grens moet eerlijk zijn voor de leerling. Dat wil zeggen dat het alleen afhankelijk is van de geleverde prestatie- niet van de moeilijkheid van de toets of de prestaties van medekandidaten, tenzij het doel is om leerlingen onderling te vergelijken. Daarnaast moet dit proces transparant zijn, zodat duidelijk is welke vaardigheden en kennis een leerling moet demonstreren om aan de verwachtingen te voldoen.

Feldman[1] heeft dit proces van eerlijke beoordeling beschreven in zijn boek ‘Grading for Equity’. Vanuit dat principe is het belangrijk dat duidelijk is welke gedragsnormen en competenties aan een bepaald cijfer verbonden zijn. Dit zorgt ervoor dat de communicatie over wat een leerling moet aantonen voor een bepaald cijfer helder is, zowel voor ouders als voor leerlingen. Dit betekent dat we verder moeten kijken dan alleen het vaststellen van een willekeurige grens tussen voldoende en onvoldoende scores op een toets. In plaats daarvan moeten we expliciet maken welke vaardigheden en kennis een leerling moet laten zien voor een bepaald cijfer.

Met andere woorden, wanneer verdient een leerling een 5,5 op een toets en wanneer een 7? Welke vaardigheid en kennis zijn hiervoor nodig? Hoe deze score op een toets bepaald wordt, noemen we cesuurbepaling.

Over cesuurbepaling

Cesuurbepaling, de kunst van het vaststellen van een specifieke grens in toetsscores, vertegenwoordigt een sierlijke balans tussen eerlijkheid, nauwkeurigheid en onderwijsdoelen. Een cesuurscore is in wezen een grenslijn. Deze grens kan bijvoorbeeld ook functioneren als een ontwikkelingsdrempel, voortgangsindicator of competentie-indicator. Dit hangt vooral af van het doel van de toets. Stel, het doel is om de ontwikkeling van de leesvaardigheden van leerlingen vast te stellen, dan zul je moeten formuleren welke ontwikkeling, en hoeveel daarvan, nodig is om een bepaald niveau van leesvaardigheid te tonen om bijvoorbeeld van groep 4 naar groep 5 te mogen gaan.

Een cesuurmethode helpt je om de minimale gedragsnormen, die volgens de leerdoelen nodig zijn, te vertalen naar toetsscores. Dit minimale niveau zal dus bij het cijfer 5,5 komen te liggen. Hiervoor zijn heldere gedragsnormen nodig. In de Engelse literatuur worden deze aangeduid als ‘performance standards’.[2] Als er heldere gedragsnormen gelden, zal het voor leerlingen ook transparant zijn aan welke eisen verschillende cijfers gekoppeld kunnen worden. Volgens het principe van ‘Grading for Equity’ zal dit leerlingen ook helpen om zich te focussen op het ontwikkelen van de minimale kerncompetenties, in plaats van zich alleen te richten op het behalen van een bepaald cijfer op een toets. Dit helpt niet alleen bij het creëren van duidelijkheid over wat bijvoorbeeld ‘een 5,5 op havo-2-niveau’ inhoudt, maar bevordert ook een eerlijkere en inclusievere leeromgeving, waarin elke leerling de kans krijgt hen potentieel te realiseren.

Er zijn ontelbaar veel cesuurbepalingsmethoden bedacht[3], en er zijn ook verschillende manieren om deze methoden van elkaar te onderscheiden (normgericht, criteriumgericht, absoluut, relatief, kandidaatgecentreerd of toetsgecentreerd, enzovoort). Toch blijft in de Nederlandse onderwijspraktijk één methode het meest dominant: de lineaire transformatie tussen cijfers en totaalscores – zoals beschreven in de inleiding. In deze blog werk ik deze aanpak uit en noem ik ook twee toegankelijke alternatieve werkwijzen, elk met eigen voor- en nadelen. Ik heb slechts twee alternatieven gekozen, omdat ik de lezer niet wil overdonderen met mijn enthousiasme over het cesuurstellingsproces. Deze twee methodes zijn zonder complexe psychometrische berekeningen makkelijk toepasbaar in de onderwijspraktijk.

 

Voorbeeld: toets met 10 meerkeuzevragen met 4 opties en 30 open vragen

Stel je een klas voor met 30 leerlingen die een maatschappijleertoets hebben gemaakt.

De toets bestaat uit 40 vragen (10 MC en 30 open vragen), en elke vraag is één punt waard. De docent moet nu de cesuurscore bepalen, oftewel het minimum aantal punten dat een leerling nodig heeft om te slagen voor de toets.

In plaats van een complexe berekening te gebruiken, besluit de docent een eenvoudige maar effectieve methode toe te passen: de cesuurscore wordt vastgesteld op 60% van het totale aantal punten. Dit betekent dat leerlingen minimaal 24 punten (60% van 40) moeten halen om te slagen.

Na het nakijken van de toetsen blijkt dat 20 van de 30 leerlingen 24 punten of meer hebben gescoord, en dus geslaagd zijn. De overige 10 leerlingen moeten de toets herkansen.

Na de succesvolle afname van de eerste maatschappijleertoets, waarbij de cesuurscore op 60% (24 van de 40 punten) was vastgesteld, creëerde de docent een tweede versie van de toets voor de parallelklas. Deze tweede toets, ook met 40 vragen (30 open en 10 MC vragen), blijkt echter onbedoeld moeilijker te zijn. Na het nakijken van de tweede toets constateert de docent dat slechts 5 van de 20 leerlingen de score van 24 punten hebben gehaald. De docent heeft het vermoeden dat de tweede toets moeilijker is dan de eerste.

Het dilemma: de docent staat nu voor een uitdaging. Hoe bepaalt men de cesuurscore voor de tweede toets, gezien de hogere moeilijkheidsgraad? Moet de cesuurscore verlaagd worden om rechtvaardig te zijn tegenover de leerlingen die de moeilijkere toets hebben gemaakt? Zo ja, hoeveel lager moet deze score zijn? Of moet de score gelijk blijven om de consistentie te bewaren? Of hebben leerlingen van de moeilijkere toets gewoon pech?

Aanpak 1 voor cesuurbepaling: Lineaire transformatie

De lineaire transformatie is eigenlijk geen echte cesuurbepalingsmethode, omdat bij deze methode geen expliciete koppeling wordt gemaakt tussen de leerdoelen en het moment waarop je je in je leertraject bevindt.[4] Het is slechts een manier om toetsscores om te zetten naar cijfers van 1 tot 10,[5] waarbij 5,5 de grenslijn vertegenwoordigt die je minimaal moet behalen op een toets. In dit proces wordt een strenge aanname gemaakt – alle toetsen zijn gelijk in moeilijkheid en inhoud. Natuurlijk, als er bij de toetssamenstelling rekening is gehouden met de moeilijkheid van de vragen en het minimale dat je nodig hebt volgens de leerdoelen bij cijfer 5,5 ligt, geldt dit niet. Dit gebeurt bijvoorbeeld bij de staatsexamens waarin de vragen vooraf ge-pretest zijn. In dat geval heb je ook geen last van het bovenstaande dilemma.

Hieronder zie je een grafische weergave van hoe de te behalen punten (1-40) op ons voorbeeldtoetsen door de lineaire transformatie worden omgezet naar cijfers (1-10). Een score van 20 is minimaal nodig voor een cijfer van 5,5 (afgerond naar 6); met andere woorden, de cesuurscore ligt bij 20. Omdat in het bovenstaande voorbeeld beide toetsen evenveel punten bevatten, zal de cesuurscore voor twee verschillende versies ook gelijk zijn. Een gelijke cesuurscore betekent dat de minimale vaardigheid die nodig is voor een cijfer van 5,5 op beide toetsen gelijk is. Maar beide toetsen verschillen in moeilijkheidsgraad, het zou dan niet eerlijk zijn om op een moeilijke toets evenveel punten te ‘eisen’ als op een makkelijkere toets.

De lineaire transformatiemethode houdt dus geen rekening met het verschil in moeilijkheidsgraad, noch met de expliciete gedragsnormen.

Aanpak 2 voor cesuurbepaling: Cohenmethode

Een andere cesuurbepalingsmethode, die vooral populair is in het hoger onderwijs bij medische opleidingen, is de Cohenmethode.[6] De Cohenmethode is ontwikkeld om de nadelen van de lineaire transformatiemethode tegen te gaan door rekening te houden met de toetsscore die leerlingen op de 95e percentiel behalen, als een indicatie voor de moeilijkheid van de toets. De redenatie van Cohen-Schotanus zegt “Als de toets moeilijker is, zullen ook de hoog scorende leerlingen lager scoren”. De formule om de cesuurscore te berekenen is dan ook eenvoudig:

cesuurscore = 0,6 x (score op 95e percentiel – gokscore) + gokscore.

De ‘gokscore-correctie’ van de 95e percentielscore wordt gebruikt om 60% van de echte beheersing te kunnen berekenen. Overigens als er geen gesloten MC vragen in de toetsvragen zijn, is de gokscore gelijk aan 0. Daarnaast kunnen ook de waarden van 95 en 60 anders gekozen worden, en in sommige gevallen kan de 90e percentielscore een betere indicatie zijn voor de moeilijkheid van de examens.[7]

De cesuurscores voor elke afname zouden we nu als volgt berekenen. Stel de 95e percentielscores op beide toetsversies waren gelijk aan 39 en 31:

eerste toets 0,6 x (39 – 2.5) + 2.5 = 0,6 x 36.5 + 2.5 = 24.4 ≈ 25 (cesuurscore wordt altijd naar boven afgerond)

tweede toets: 0,6 x (31 – 2.5) + 2.5 = 19.6 ≈ 20

In dit voorbeeld verandert alleen de score op de 95e percentiel, omdat beide examens 10 meerkeuzevragen met 4 alternatieven bevatten en de gokscore gelijk is aan 2.5 (= 1/4 x 10). Dit resulteert in 5 punten verschil in cesuurscores voor beide toetsen, waarbij voor de eerste toets de cesuurscore 5 punten hoger ligt! Dit betekent dat je, om een cijfer van 5,5 te halen, per versie een andere hoeveelheid punten moet behalen. De cesuurscore verschilt dus puur omdat de scores die leerlingen hebben behaald anders zijn geweest. Op een moeilijkere toets zullen leerlingen lager scoren, maar de vraag is of dat verschil ook overeenkomt met het minimale dat nodig is volgens de leerdoelen.

De Cohenmethode houdt dus wel rekening met de moeilijkheid van de toets doordat leerlingen op een moeilijkere toets lager scoren. De vraag blijft of dat verschil in scores alleen door de moeilijkheid van de toets veroorzaakt is, of ook door de vaardigheid van de specifieke afnamegroep. Bij de Cohenmethode hangt de cesuurscore dus ook af van de prestaties van de medeleerlingen op de 95e percentielscore. Het behalen van de 5,5 zal dus niet volledig afhangen van de kennis en vaardigheid van een leerling, maar ook van de prestatie van de medeleerlingen op de 95e percentielscore.

De Cohenmethode kan wel een aantrekkelijke methode zijn om de cesuurscore te bepalen als er slechts een toetsversie bij dezelfde groep leerlingen wordt afgenomen. Er is echter weinig wetenschappelijk onderzoek bekend over de verschillende wiskundige keuzes van deze methode en of deze ook bij kleine steekproeven goed zal werken.[8]

Aanpak 3 voor cesuurbepaling: Angoff-methode

Een cesuurbepalingsmethode waarbij de toetsvragen worden beoordeeld vanuit inhoudelijk gestelde leerdoelen, is de Angoff-methode.[9] Bij deze methode worden verschillende inhoudsdeskundigen in een sessie gevraagd om de moeilijkheid voor alle toetsvragen in te schatten voor een specifiek niveau.

Bijvoorbeeld voor havo-2-leerlingen. Deelnemers beelden zich 100 havo-2-leerlingen in die net aan het havo-2-niveau hebben en beantwoorden per toetsvraag de volgende vraag:

“Hoeveel van deze 100 havo-2-leerlingen zal deze vraag goed beantwoorden op basis van de leerdoelen die worden gesteld? “

Je neemt de som van alle scores per deelnemer en deelt door 100. Dat is dan de cesuurscore per deelnemer.

Een andere mogelijkheid is om je een havo-2-leerling voor te stellen die net aan het havo-2-niveau voldoet en per toetsvraag na te gaan of deze leerling de vraag wel of niet goed zal beantwoorden, op basis van de gestelde leerdoelen. Vervolgens tel je het aantal vragen op die een leerling van havo-2-niveau goed zou hebben en dat aantal vormt dan de cesuur voor je toets.

In verschillende kalibratierondes bespreken de deelnemers met elkaar hun keuzes en passen waar nodig hun antwoorden aan. Aan het einde van de sessie wordt een gemiddelde berekend over alle individuele cesuurscores voor een algemene gedragen cesuurscore per toets.

De Angoff-methode kent veel variaties, is wel tijdsintensief en het expertiseniveau van de deelnemers is cruciaal.[10] Maar uit ervaring van het leiden van meer dan 100 Angoff-sessies[11] kan ik aangeven dat alle deelnemers deze sessies ontzettend waardevol hebben ervaren, omdat het hen vaak het gevoel geeft dat de cesuurscore beredeneerd tot stand is gekomen. En docenten kunnen beter uitleggen welke leerdoelen van belang zijn om een cijfer van 5,5 te behalen.

Om de Angoff-methode goed te laten werken zijn heldere uitgangspunten nodig die de minimale vereiste beschrijven. Maar in het kader van ‘Grading for Equity’ is het sowieso van belang om heldere gedragsnormen en competenties te definiëren. Het gaat erom dat leerlingen begrijpen welke specifieke acties, inzet en begrip nodig zijn om te voldoen aan de minimale vereisten. Dus wat ligt er onder het cijfer 5,5?

 

Tot slot

Samenvattend, cesuurbepaling is geen eenmalige activiteit, maar een essentieel onderdeel van een dynamisch onderwijssysteem. Door de focus te leggen op samenwerking, transparantie, en continue verbetering, kunnen onderwijsteams de kwaliteit van hun toetsing naar een nog hoger niveau brengen.

Verschillende methoden zoals de lineaire transformatie- en Cohenmethode tonen aan dat cesuurbepaling verder gaat dan alleen het vaststellen van een grens; het is een evenwicht tussen eerlijkheid, moeilijkheid en onderwijsdoelen. Het correct bepalen van de cesuurscore, vooral bij een kritische score zoals 5,5, is cruciaal. Een verkeerde bepaling kan immers een significante impact hebben op de leerlingen, niet alleen in termen van hun cijfers, maar ook op hun zelfvertrouwen en motivatie. Zoals Johannes Visser in zijn boek “Is het voor een cijfer?” benadrukt, is de impact van beoordeling op leerlingen niet te onderschatten – het vormt niet alleen hun kennis, maar ook hun motivatie en zelfbeeld.[12] Deze inzichten benadrukken de noodzaak van zorgvuldige en doordachte cesuurbepaling, een proces dat essentieel blijft voor het waarborgen van kwaliteit en eerlijkheid in het onderwijs.

Kerngedachtes over cesuurbepaling

Bepaling van Cesuurscores Afhankelijk van Leerdoelen: Het is essentieel dat de cesuurscore overeenkomt met de minimale gedragsnormen en competenties zoals gedefinieerd in de leerdoelen van de cursus of het vak. Dit betekent dat de grens die aangeeft of een student geslaagd is voor een toets (cijfer 5,5), eerlijk moet zijn en alleen afhankelijk van de prestaties van de leerling, niet van de moeilijkheidsgraad van de toetsversie of de prestaties van medestudenten​​.

Gebruik van de Angoff-methode voor Inhoudelijke Afstemming: De Angoff-methode is een aanpak waarbij toetsvragen worden beoordeeld vanuit inhoudelijk gestelde leerdoelen. Deze methode zorgt ervoor dat de cesuurscore nauw aansluit bij wat er van studenten verwacht wordt op basis van de leerdoelen. De Angoff-methode is vooral nuttig als de toetsvragen direct gekoppeld kunnen worden aan specifieke leerdoelen​​.

Bewustwording en Kwaliteitsbesef bij de cesuurbepaling: De inzet van de Angoff-methode voor cesuurbepaling versterkt niet alleen de afstemming tussen toetsvragen en leerdoelen, maar het bevordert ook het bewustzijn en kwaliteitsbesef bij docenten. Dit aspect van bewustwording is cruciaal binnen de Toetsrevolutie-visie, waarbij wordt gestreefd naar een doelgerichte en transparante benadering van het onderwijs. Docenten ontwikkelen door hun ervaring een beoordelingsexpertise, die hen in staat stelt om verschillende uitvoeringsvormen van opdrachten langs eenzelfde lat te beoordelen en de minimale vereisten die aansluiten bij de leerdoelen duidelijk te maken. Het is belangrijk om deze expertise, naast vakkennis, te benutten bij het formuleren van feedback en het vaststellen van cesuurscores. Dit draagt bij aan een dieper begrip van wat kwaliteit in het onderwijs inhoudt, en hoe dit te communiceren naar studenten. Zie ook de Toetsrevolutie-blog over kwaliteitsbesef bijbrengen.

Het bewustzijn over deze aspecten is essentieel om leerlingen en studenten te helpen hun eigen kwaliteitsbesef te ontwikkelen, wat uiteindelijk resulteert in betere zelfregulatie en een effectiever gebruik van feedback. Zo werkt de docent niet alleen aan een beter product, maar vooral aan het vermogen van de student om zelfstandig een beter product te maken, in lijn met de ‘Grading for Equity’ principes​​.

Noten

  1. 2019.
  2. Cizek & Bunch, 2007; Hambleton & Pitoniak, 2006.
  3. Idem.
  4. Cizek & Bunch, 2007.
  5. De Groot & Naerssen, 1969.
  6. Cohen-Schotanus & Van der Vleuten, 2009.
  7. Vaheoja, 2022.
  8. Vaheoja, 2022.
  9. 1971.
  10. Cizek & Bunch, 2007; Hambleton & Pitoniak, 2006.
  11. Vaheoja, 2022.
  12. Visser, 2023.

Literatuur

Angoff, W. H. (1971). Scales, norms and equivalent scores. In R. L. Thorndike (Ed.), Educational measurements (2nd ed., pp. 508–601). Washington: American Council on Education.

Cizek, G. J., & Bunch, M. B. (2007). Standard setting: A guide to establishing and evaluating performance standards on tests. California: Sage Publications.

Cohen-Schotanus, J., & van der Vleuten, C. P. M. (2010). A standard setting method with the best performing students as point of reference: Practical and affordable. Medical Teacher, 32(2), 154–160. https://doi.org/10.3109/01421590903196979

de Groot, A. D., & van Naerssen, R. F. (1969). Studietoetsen : Construeren, afnemen, analyseren. Den Haag: Mouton.

Feldman, J. (2019). Grading for equity: What it is, why it matters, and how it can transform schools and classrooms. Corwin, a SAGE Company.

Hambleton, R. K., & Pitoniak, M. J. (2006). Setting performance standards. In R. L. Brennan (Ed.), Educational measurement (4th ed., pp. 433–470). USA: Praeger Publishers. https://doi.org/10.4324/9780203848203

Verstralen, H. H. F. M. (1993). Schalen, normen en cijfers. In T. J. H. M. Eggen & P. F. 147 Sanders (Eds.), Psychometrie in de praktijk (pp. 83–178). Arnhem: Cito

Van Berkel, H., Bax, A., & Joosten-ten Brinke, D. (2014). Toetsen in het hoger onderwijs. Bohn Stafleu van Loghum.

Sanders, P. (2022). Toetsen op school in het hoger onderwijs. Cito. https://cito.nl/media/4bgnyhdo/toetsen-op-school-hoger-onderwijs.pdf

Vaheoja, M. (2022). Setting standards in small samples. Universiteit Twente.

Visser, J. (2023). Is het voor een cijfer? Correspondent.

Auteur

  • Monika Vaheoja

    Monika is adviseur bij Toetsrevolutie en is gepromoveerd in psychometrie over een eerlijk cesuurstellingsproces bij examens. Met meer dan tien jaar ervaring heeft Monika haar expertise gebruikt om examenaanbieders verder te helpen met gericht psychometrisch advies. Door middel van ondersteuning om individuele R-scripts te schrijven om het analyseproces te automatiseren, heeft ze bijgedragen om de kwaliteit van examens empirisch te onderbouwen.

    Bekijk Berichten

Auteur

  • Monika Vaheoja

    Monika is adviseur bij Toetsrevolutie en is gepromoveerd in psychometrie over een eerlijk cesuurstellingsproces bij examens. Met meer dan tien jaar ervaring heeft Monika haar expertise gebruikt om examenaanbieders verder te helpen met gericht psychometrisch advies. Door middel van ondersteuning om individuele R-scripts te schrijven om het analyseproces te automatiseren, heeft ze bijgedragen om de kwaliteit van examens empirisch te onderbouwen.

    Bekijk Berichten

Nieuwe blogs