Comparatief beoordelen in plaats van cijfers geven

Comparatief beoordelen in het onderwijs

Comparatief beoordelen in het onderwijs levert een betrouwbaarder oordeel op dan werken met rubrics of cijfers.

Het idee dat we met één cijfer een complexe vaardigheid als schrijven of creativiteit recht kunnen doen, is hardnekkig – en tegelijkertijd moeilijk vol te houden. Want bij het meten van dit soort vaardigheden speelt altijd meetonzekerheid mee. Het verschil tussen een 5.1 en een 5.9 zit vaak binnen de foutmarge. Dat betekent dat de beoordeling niet nauwkeurig genoeg is om subtiele verschillen betrouwbaar vast te stellen.

 

Verschillen tussen beoordelaars

Bij een traditionele beoordeling bekijk je een tekst, vink je rubrics af, tel je punten op – en rolt daar een cijfer uit. Valt het resultaat tegen? Dan schuiven we aan de N-term. Maar dat cijfer zegt vaak meer over de rubric of jouw interpretatie daarvan, dan over de kwaliteit van de tekst in zijn geheel.

In het boek Noise: A Flaw in Human Judgment laten Kahneman en collega’s[1] overtuigend zien hoe groot de spreiding in menselijke oordelen is – zelfs bij experts. Twee docenten geven soms totaal verschillende cijfers aan exact dezelfde tekst. We zijn nu eenmaal gevoelig voor context, stemming, volgorde, referentiekaders. Computers zijn consistenter, maar missen de menselijke nuance. Het heeft dus weinig zin om mensen te vervangen door computers in het beoordelingsproces.

 

Comparatief beoordelen in het onderwijs: hoe werkt het?

Comparatief beoordelen in een online platform sluit beter aan bij hoe we als mensen kwaliteit inschatten [2][3][4]. Hierbij vergelijk je twee teksten per keer en kies je steeds de betere. Geen punten, geen checklists. Gewoon de vraag: welke van deze twee teksten vind ik sterker? Door dat proces tientallen keren te herhalen, met steeds andere tekstparen, ontstaat er via een algoritme een rangorde. Die rangorde weerspiegelt de collectieve professionele inschatting van de beoordelaars – en blijkt verrassend stabiel en betrouwbaar te zijn [5] .

 

Niet kijken naar wat fout is…

Het is een radicaal andere benadering. Je kijkt niet langer naar wat er allemaal fout is in een tekst, maar je kijkt met een holistische bril. Wat werkt? Wat komt over? Wat voelt afgerond, helder, krachtig? Het mooie is: dit voelt vaak natuurlijker voor beoordelaars. En het blijkt in onderzoek ook betrouwbaarder[6] [7]. Het voorkomt dat je onbedoeld op maandagmiddag harder of zachter beoordeelt dan op vrijdagochtend. Het is niet vaag of vrijblijvend. Het is een gestructureerde methode die uitgaat van het vakmanschap van een groep docenten – en die dat vakmanschap versterkt door collectieve oordeelsvorming.

 

Checklists zetten je soms op het verkeerde been

Rubrics en checklists[8] helpen leerlingen om te weten wat er van hen verwacht wordt. Ze maken het beoordelingsproces transparanter. Maar als ze gaan domineren, gebeuren er twee dingen:

  1. De focus verschuift van kwaliteit naar afvinkgedrag [9].
  2. De beoordeling wordt vaak fragmentarisch, terwijl schrijven juist een geïntegreerde vaardigheid is.

Een tekst die alle checklistpunten netjes aantikt – spelling, opbouw, zinslengte – kan toch vlak of saai zijn. Een originele tekst met een sterk perspectief maar een paar technische imperfecties heeft misschien veel meer impact. Toch scoort die laatste vaak lager. Waarom? Omdat we zijn gaan geloven dat beoordelen betekent: tellen in plaats van wegen. Maar, wat als je bij die ene rubric toch net een andere keuze had gemaakt: zouden de cijfers van de leerlingen dan dezelfde blijven?

Rubrics geven houvast, maar misleiden ons ook. In een studie van De Smedt en collega’s [10] bleek dat beoordelaars rubrics vaak achteraf gebruiken om hun intuïtieve oordeel te rechtvaardigen (in plaats van dat de rubric hun oordeel stuurt). We krijgen eerst een totaalindruk, en gaan daarna argumenten zoeken.

 

Vakmatige intuïtie

Bij comparatief beoordelen draai je dit patroon om. Je begint met je vakmatige intuïtie: welke tekst is beter? Je hoeft je oordeel niet te verantwoorden , maar je oordeelt wel binnen de randvoorwaarden van de taak: doel, publiek, genre. Je bent bewust bezig met kwaliteit in plaats van met afvinklijstjes[11]. En nee: dat maakt het niet subjectief. Want je beoordeelt niet alleen. In het online platform ben je deel van een groep beoordelaars die gezamenlijk, via honderden vergelijkingen, tot een betrouwbaar resultaat komen.

 

Waarom comparatief beoordelen in het onderwijs betrouwbaar is

Er zijn inmiddels meerdere studies gedaan naar comparatief beoordelen, in primair en voortgezet onderwijs, in Nederland en daarbuiten. De resultaten zijn consistent: het is betrouwbaar en geeft een genuanceerder beeld van schrijfkwaliteit dan traditionele methoden.

In een Nederlandse studie met basisschoolleerlingen van Bouwer en collega’s[12] werd schrijfvaardigheid beoordeeld door teksten telkens paarsgewijs te vergelijken. De betrouwbaarheid was hoog (0.86), zelfs hoger dan bij de centrale papieren schrijftoets. In een vervolgstudie konden de onderzoekers zelfs niveaus als 1F en 2F toewijzen op basis van deze vergelijkingen, met behulp van ankerteksten. Zo ontstond een schaal die betrouwbaar en inhoudelijk valide was.

Een recent experiment met meer dan 35.000 leerlingen in het Britse basisonderwijs [13] bevestigde dit beeld. Daar kwamen 9.999 docenten tot een betrouwbare rangorde[14] door alleen teksten te vergelijken – zonder cijfers of rubrics. Zelfs AI bleek in 81% van de gevallen tot hetzelfde oordeel te komen als een mens[15].

Wat opvalt in al deze studies:

  • Docenten zijn sneller in vergelijken dan in scoren.
  • De beoordelingskwaliteit is hoger, zeker bij complexe taken zoals schrijven.
  • Er ontstaat meer spreiding in de resultaten. In plaats van dat alle leerlingen tussen een 5 en een 7 bungelen, zie je beter wie echt uitblinkt en wie nog hulp nodig heeft.

 

Een algoritme dat helpt, geen oordeel velt

Zodra het woord algoritme valt, gaan vaak de alarmbellen af. En terecht. We kennen de verhalen over systemen die zonder transparantie beslissingen nemen die mensen direct raken. Maar dat is niet het soort algoritme dat we hier bedoelen.

In Noise: A Flaw in Human Judgment laten Kahneman cum suis zien dat mensen vaak verrassend grillig oordelen. Twee beoordelaars kunnen op basis van exact dezelfde informatie tot totaal verschillende conclusies komen. En dat is geen uitzondering, maar systematisch. Dat is de ‘noise’ waar het boek over gaat: onbedoelde willekeur in menselijke besluitvorming.

Juist in het onderwijs – waar leerlingen worden ingedeeld, gekwalificeerd en afgerekend – is die willekeur extra zuur. Een algoritme kan dan helpen om die ruis te dempen. Niet door het oordeel over te nemen, maar door de oordelen van meerdere mensen op een consistente en transparante manier te combineren.

Dat is precies wat comparatief beoordelen doet. Jij vergelijkt teksten – steeds per twee – en maakt een professionele keuze: welke is sterker? Het algoritme verzamelt al die keuzes en zet ze in een logische rangorde. Het is een rekenhulp die het oordeel sterker, betrouwbaarder en transparanter maakt – door menselijk vakmanschap en algoritmische precisie samen te brengen.

Dit is belangrijk om te begrijpen:

  • Het algoritme velt geen oordeel. Jij doet dat, samen met andere docenten.
  • Het algoritme helpt alleen om al die vergelijkingen op een logische, consistente manier te rangschikken.
  • Je ziet als docent ook precies wat er gebeurt. Geen black box, maar transparantie.

En juist door te vergelijken, verdwijnt iets anders dat ons vaak ongemerkt beïnvloedt: volgorde-effecten. De ene tekst lijkt slechter omdat je net daarvoor een briljante tekst las. Of beter, omdat je moe was. Vergelijken met een algoritme als hulpmiddel helpt om dat soort toevalligheden uit te filteren [16]. Als er inconsistenties in de resultaten blijken te zijn, selecteert het online systeem verschillende paren voor je- totdat er wel een nauwkeurig oordeel heeft plaatsgevonden.

 

Comparatief beoordelen door AI

In Engeland wordt al geëxperimenteerd met AI die het vergelijken ondersteunt[17]. De resultaten zijn veelbelovend: AI was het in 81% van de gevallen eens met docenten. Maar de kracht zit juist in de combinatie: jij bepaalt, de AI helpt ordenen, en samen maken we het beoordelen eerlijker én efficiënter.

 

Pilot comparatief beoordelen in het onderwijs: doe mee

Wil je zelf ervaren hoe het is om schrijfopdrachten te beoordelen zónder cijfers, maar mét minder twijfel en meer zicht op kwaliteit? Dan is deze pilot iets voor jou.

  • Je doet mee met een kleinschalige pilot voor groep 6.
  • De leerlingen maken een schrijfopdracht in september of oktober 2025.
  • Jij beoordeelt de teksten via een online platform waarin je teksten vergelijkt in plaats van beoordeelt met cijfers of rubrics.
  • Je krijgt een terugkoppeling in de vorm van een rangorde, een beeld van de spreiding, en – als je wilt – inzicht in hoe jouw school scoort ten opzichte van andere deelnemers (volledig anoniem).

Aanmelden of meer informatie?

Bekijk de https://toetsrevolutie.nl/ons-aanbod/no-more-marking/ of meld je direct aan via monika@toetsrevolutie.nl. Twijfel je? Dan kun je ook eerst even contact opnemen.

 

Literatuurlijst:

Kahneman, D., Sibony, O., & Sunstein, C. R. (2021). Noise: A flaw in human judgment. Little, Brown Spark.

Bouwer, R., van Rijn, P. W., Molenaar, D., & Koster, M. (2024). Comparative approaches to the assessment of writing: A comparison of benchmark rating and comparative judgement. Journal of Writing Research, 15(3), 309–332. https://doi.org/10.17239/jowr-2024.15.03.02

Christodoulou, D., & Wheadon, C. (2025). So, can AI assess writing? No More Marking. https://substack.nomoremarking.com/p/so-can-ai-assess-writing

De Smedt, F., & Van Keer, H. (2018). Fostering writing in upper primary grades: a study into the distinct and combines impact of explicit instruction and peer assistance. Reading and Writing, 31(2), 325-354. http://doi.org/10.1007/s11145-015-9590-z

Heldsinger, S., & Humphry, S. (2010). Using judgment-based assessment to help teachers make consistent and reliable judgments. Practical Assessment, Research & Evaluation, 15(15), 1–11. https://doi.org/10.7275/8dgs-gx24

Pollitt, A. (2012). Comparative judgement for assessment. International Journal of Technology and Design Education, 22(2), 157–170. https://doi.org/10.1007/s10798-011-9189-0

Verhavert, S., Bouwer, R., Donche, V., & De Maeyer, S. (2019). A meta-analysis on the reliability of comparative judgement. Assessment in Education: Principles, Policy & Practice, 26(5), 541–562. http://doi.org/10.1080/0969594X.2019.1602027

 

Noten

  1. Kahneman, D., Sibony, O., & Sunstein, C. R. (2021). Noise: A flaw in human judgment. Little, Brown Spark.
  2. Bouwer, R., van Rijn, P. W., Molenaar, D., & Koster, M. (2024). Comparative approaches to the assessment of writing: A comparison of benchmark rating and comparative judgement. Journal of Writing Research, 15(3), 309–332. https://doi.org/10.17239/jowr-2024.15.03.02
  3. De Smedt, F., & Van Keer, H. (2018). Fostering writing in upper primary grades: a study into the distinct and combines impact of explicit instruction and peer assistance. Reading and Writing, 31(2), 325-354. http://doi.org/10.1007/s11145-015-9590-z
  4. Christodoulou, D., & Wheadon, C. (2025). So, can AI assess writing? No More Marking. https://substack.nomoremarking.com/p/so-can-ai-assess-writing
  5. Verhavert, S., Bouwer, R., Donche, V., & De Maeyer, S. (2019). A meta-analysis on the reliability of comparative judgement. Assessment in Education: Principles, Policy & Practice, 26(5), 541–562. http://doi.org/10.1080/0969594X.2019.1602027
  6. Pollitt, A. (2012). Comparative judgement for assessment. International Journal of Technology and Design Education, 22(2), 157–170. https://doi.org/10.1007/s10798-011-9189-0
  7. Heldsinger, S., & Humphry, S. (2010). Using judgment-based assessment to help teachers make consistent and reliable judgments. Practical Assessment, Research & Evaluation, 15(15), 1–11. https://doi.org/10.7275/8dgs-gx24
  8. Joosten-ten Brinke, D., & Cornelisse, R. (2025). Toetsen met rubrics. In T. van Schilt-Mol, K. Beekman, D. Joosten-ten Brinke, K. Schildkamp, J. T. M. Gulikers, D. Hopster-den Otter, H. van Berkel, & A. Bax (Red.), Toetsen in het voortgezet onderwijs (pp. 183–195). Boom uitgevers Amsterdam.
  9. Taylor, B., Kisby, F., & Reedy, A. (2024). Rubrics in higher education: an exploration of undergraduate students’ understanding and perspectives. Assessment & Evaluation in Higher Education49(6), 799–809. https://doi.org/10.1080/02602938.2023.2299330
  10. De Smedt, F., Van Keer, H., Bouwer, R., Merriënboer, J. J. G., & van den Bergh, H. (2018). The effects of process-oriented writing instruction combined with strategy instruction on elementary students’ writing quality. Contemporary Educational Psychology, 53, 25–40. https://doi.org/10.1016/j.cedpsych.2018.01.001
  11. Bouwer, R., van Rijn, P. W., Molenaar, D., & Koster, M. (2024). Comparative approaches to the assessment of writing: A comparison of benchmark rating and comparative judgement. Journal of Writing Research, 15(3), 309–332. https://doi.org/10.17239/jowr-2024.15.03.02
  12. Bouwer, R., van Rijn, P. W., Molenaar, D., & Koster, M. (2024). Comparative approaches to the assessment of writing: A comparison of benchmark rating and comparative judgement. Journal of Writing Research, 15(3), 309–332. https://doi.org/10.17239/jowr-2024.15.03.02
  13. Christodoulou, D., & Wheadon, C. (2025, March 5). So, can AI assess writing? No More Marking. https://substack.nomoremarking.com/p/so-can-ai-assess-writing
  14. Zogenoemde inter-beoordelaars betrouwbaarheid: 0.83.
  15. Christodoulou, D., & Wheadon, C. (2025, March 5). So, can AI assess writing? No More Marking. https://substack.nomoremarking.com/p/so-can-ai-assess-writing
  16. Verhavert, S., Bouwer, R., Donche, V., & De Maeyer, S. (2019). A meta-analysis on the reliability of comparative judgement. Assessment in Education: Principles, Policy & Practice, 26(5), 541–562. http://doi.org/10.1080/0969594X.2019.1602027
  17. Christodoulou, D., & Wheadon, C. (2025, March 5). So, can AI assess writing? No More Marking. https://substack.nomoremarking.com/p/so-can-ai-assess-writing

Auteur

  • Monika is adviseur bij Toetsrevolutie en is gepromoveerd in psychometrie over een eerlijk cesuurstellingsproces bij examens. Met meer dan tien jaar ervaring heeft Monika haar expertise gebruikt om examenaanbieders verder te helpen met gericht psychometrisch advies. Door middel van ondersteuning om individuele R-scripts te schrijven om het analyseproces te automatiseren, heeft ze bijgedragen om de kwaliteit van examens empirisch te onderbouwen.

    Bekijk Berichten

Auteur

  • Monika is adviseur bij Toetsrevolutie en is gepromoveerd in psychometrie over een eerlijk cesuurstellingsproces bij examens. Met meer dan tien jaar ervaring heeft Monika haar expertise gebruikt om examenaanbieders verder te helpen met gericht psychometrisch advies. Door middel van ondersteuning om individuele R-scripts te schrijven om het analyseproces te automatiseren, heeft ze bijgedragen om de kwaliteit van examens empirisch te onderbouwen.

    Bekijk Berichten

Nieuwe blogs