Betere constructieve afstemming door toetsanalyse

Korte samenvatting

Stap voor stap je toets analyseren. Aan de hand van dit praktijkvoorbeeld laat Monika Vaheoja in vijf stappen zien hoe je hoe toetsanalyse in het onderwijs doet. Waarom zou je? Een goede toets draagt bij aan beter onderwijs.

 

Inleiding: waarom toetsanalyse in het onderwijs essentieel is

Toetsing speelt een centrale rol in het onderwijs. Het is veel meer dan alleen het geven van een cijfer. Een goede toets biedt je informatie over wat leerlingen beheersen, ondersteunt het leerproces en geeft zicht op de kwaliteit van je onderwijs. Maar dat kan alleen als de toets betrouwbaar is én als toets en didactiek goed aansluiten bij de leerdoelen van je leerlingen. We noemen dat de constructieve afstemming.

Volgens de afstemmingsdriehoek van onderzoeker Biggs versterken leerdoelen, onderwijs en toetsing elkaar.[1] Als één van de drie niet goed afgestemd is, raakt het hele systeem uit balans. Daarom is toetsanalyse zo belangrijk. Het helpt om te bepalen of je toets meet wat hij moet meten, of de vragen voldoende variatie en uitdaging bieden, en of beslissingen zoals slagen of zakken terecht zijn. Toetsanalyse kun je zien als een onderzoekscyclus: observeren, analyseren, toetsen, evalueren en bijstellen.

 

Toetsing kan helpen leerprocessen beter te begrijpen

Door toetsing zo te benaderen, verandert de functie ervan. Het wordt een krachtig instrument om het leerproces beter te begrijpen, om je keuzes in de lespraktijk onderbouwd te maken, en om doelgericht te werken aan onderwijsverbetering. Dat vraagt van jou als docent dat je helder formuleert wat je precies verwacht van leerlingen, zorgvuldig kijkt naar welke toetsvragen je in de toets opneemt, en dat je toetsresultaten gebruikt als feedback op je eigen onderwijs en aan de leerlingen over hun eigen kennen en kunnen.

Een grondige toetsanalyse kijkt onder andere naar:

  • De moeilijkheid van vragen (p-waarde)Hoeveel leerlingen beantwoorden de vraag correct?
  • Het onderscheidend vermogen (rir-waarde) van de vragen – Beantwoorden sterkere leerlingen de vraag beter dan zwakkere leerlingen?
  • De betrouwbaarheid (Cronbach’s alpha) – Hoe consistent meet de toets?
  • De standaardmeetfout (SE) – Hoe precies is de score van een leerling?
  • De cesuurbepaling – Wanneer is iets voldoende, en is die grens terecht gekozen?

Pas als je al deze aspecten samen bekijkt, ontstaat een betrouwbaar beeld van de kwaliteit van een toets.

 

Praktijkvoorbeeld van toetsanalyse in het onderwijs

Hieronder analyseer ik een recent afgenomen biologietoets voor havo 4. Hij meet het biologische concept van regulatie en gedrag bij organismen, met nadruk op het zenuwstelsel, het hormonale stelsel en gedragspatronen. De vragen richten zich op hoe dieren en mensen prikkels waarnemen, verwerken en daarop reageren, inclusief reflexen, zintuiglijke waarneming, hormonale controle en leerprocessen.

Hieronder zie je de toetsmatrijs van deze biologietoets. In een cel is het aantal punten per beheersingsniveau en toetsonderdeel gespecificeerd. Te zien is dat het onderdeel ‘algemene biologie’ het zwaarste mee telt en daarna ‘zenuwstelsel en impulsgeleiding’.

 

Tabel 1 : toetsmatrijs behorend bij biologie proefwerk voor havo 4
 ReproductieToepassing 1Toepassing 2InzichtAantal punten
Algemene biologie8241125
Gedrag & Leren2  24
Hormonale regulatie2 2 4
Klierwerking1   1
Onderzoek & Experimenten 1  1
Spierwerking & Beweging 4  4
Zenuwstelsel & Impulsgeleiding33 410
Zintuigen & Waarneming22 26
      
Aantal punten181261955

Om de toetsanalyses uit te voeren zijn twee databestanden nodig: één met informatie over de toetsvragen, zoals het aantal punten per vraag en welke correcte sleutel er bij de meerkeuzevraag goedgerekend moet worden, en één bestand met de gekozen antwoorden van de leerling of het aantal punten dat een leerling per vraag heeft gekregen.

Zo kunnen we analyseren welke vragen goed functioneren en hoe de toets als geheel presteert. Een dergelijke analyse heet ook wel een klassieke toets- en itemanalyse.[2]

 

De toetsanalyse

Bij de analyse van een recente biologietoets, afgenomen bij 27 leerlingen, leek er op het eerste gezicht weinig aan de hand (zie tabel 2: samenvattende gegevens over de toets). Want, er was variatie in de scores (standaarddeviatie van 4.68) en de gemiddelde toetsscore van alle leerlingen was 25.56 op een maximum van 55 punten.

Tabel 2 : samenvattende gegevens van de toetsscores

Dit zijn ook de eerste aspecten waar je als toetsexpert naar kijkt: hoe is de gemiddelde score en welke spreiding hebben de scores? Met een toets wil je namelijk onderscheid kunnen maken tussen wie de stof goed beheerst, en wie de stof weinig beheerst.

Je wilt dus dat de toetsvragen kennis en kunde van je leerlingen goed kunnen bepalen. Daarom stel je vragen of geef je opdrachten die variëren in moeilijkheidsgraad. Als die spreiding ontbreekt, kan de toets niet betrouwbaar zijn. Om deze reden kijk je pas daarna naar de betrouwbaarheid van je toets (Cronbach’s alpha). En… die was in dit voorbeeld erg laag.

 

Toetsanalyse in het onderwijs: hoe betrouwbaar is je toets echt?

De toetsbetrouwbaarheid van deze biologietoets voor havo 4, gemeten met Cronbach’s alpha, is 0.11. Om dit te interpreteren is het goed om te weten dat de Cronbach’s alpha altijd tussen 0 en 1 is. Het is een maat voor de interne consistentie van de toets, oftewel in hoeverre de items samen één onderliggend construct meten. In deze biologietoets zitten acht onderlinge concepten (zie tabel 1).

Een hogere alpha (bijvoorbeeld 0.75 of hoger) wijst op een betrouwbaar meetinstrument. Bij een lage alpha (onder circa 0.60) is de kans groter dat de toets inconsistente of onbetrouwbare uitkomsten geeft. Dat wil zeggen, als je dezelfde toets nog een keer afneemt, zijn de resultaten per leerling misschien wel heel anders.

Bij een belangrijke beslissing (als een cijfer echt meetelt voor de overgang bijvoorbeeld) wil je de betrouwbaarheid hoog hebben. Op een toets met een lage betrouwbaarheid van 0.11 zijn nauwelijks betrouwbare uitspraken over beheersing te baseren. Leerlingen worden onvoldoende geordend van weinig naar veel kennis. Je krijgt als docent geen inzicht in de mate waarin leerlingen de leerstof beheersen, en de verschillen tussen leerlingen daarin.

 

Meetfout en cesuur in toetsanalyse

De meetfout wordt samengevat in een getal dat de standaardmeetfout heet (zie figuur 1 voor de visualisatie van de meetfout van de toetsscore). Deze is bij de huidige voorbeeldtoets 4,41 punten. Dat betekent dat bij een toetsresultaat van bijvoorbeeld 28 punten, de werkelijke beheersing van een leerling ook 4,41 punten lager (23,59) of hoger (32,41) kan liggen. En dat heeft consequenties.

Immers, als de grens van zakken en slagen (de cesuur) 26 is, ontstaat door de meetfout veel onzekerheid: een leerling met 28 punten zou in werkelijkheid ook onder de cesuur kunnen zitten, terwijl een leerling met 23 punten de stof wellicht juist voldoende beheerst.

Als een leerling scoort binnen de foutmarge die overlapt met de cesuur, wordt het dus heel lastig om te beslissen of hij of zij de leerstof beheerst.

 

Toetsscore niet absoluut

Figuur 1 : Toetsscore niet absoluut

Deze foutmarge wordt samen met de betrouwbaarheid en spreiding samengevat als het percentage misclassificaties (zie tabel 3 voor een overzicht van de toetsresultaten ten opzichte van de cesuurscore). Van de 27 leerlingen zijn er bij deze toets 16 geslaagd en 11 gezakt. Maar doordat de betrouwbaarheid van de toets zo laag is, is de proportie mogelijk onterecht geslaagd en gezakt ook erg hoog- bijna de helft heeft mogelijk een andere uitslag. De analyse toonde dat 44% van de leerlingen die als ‘geslaagd’ uit de toets kwamen, mogelijk onterecht een voldoende kreeg (zie tabel 3). Bij de ‘gezakte’ leerlingen was dit zelfs 45%.

Tabel 3: overzicht toetsresultaten t.o.v. cesuur

Afbeelding met tekst, schermopname, Lettertype, nummer Automatisch gegenereerde beschrijving

Resumerend onderstreept de analyse van deze biologietoets hoe belangrijk het is om toetsscores niet als absoluut te beschouwen. Een toetsscore is immers een momentopname, met een foutmarge. Vooral in kleine klassen of bij toetsen zoals deze – met een betrouwbaarheid van slechts 0.11 – speelt toeval een grote rol.

Zo’n lage waarde betekent dat de toets niet consistent meet: dezelfde leerling kan bij een herhaalde afname een heel andere score behalen, zonder dat diens beheersing veranderd is. Er vindt dus geen betrouwbare ordening plaats van leerlingen op basis van kennis of vaardigheid.

 

Hoe maak je een toets betrouwbaarder?

De getallen die ik hierboven besproken heb, zijn allemaal samenvattend over de toets heen. Maar elk toetsvraag is een bouwsteen en daarom is het van belang om de afzonderlijke items gedetailleerd te bekijken. Een slecht functionerend toetsitem kan de betrouwbaarheid flink verlagen en daarom is het goed om naar de p- en rir-waardes van de toetsitems te kijken.

Meerdere vragen in bovenstaand voorbeeld hadden een negatieve rir-waarde (het onderscheidend vermogen van de toetsvraag: beantwoorden sterkere leerlingen de vraag beter dan zwakkere leerlingen?). Een rir-waarde zit tussen -1 en 1. Een negatieve rir-waarde geeft aan dat leerlingen met hogere totaalscores deze vraag vaker fout maakten dan leerlingen met lagere scores. Zulke items vergroten de meetfout en ondermijnen het onderscheidend vermogen van de toets. Dat kan het gevolg zijn van een constructiefout, leerlingen zijn minder bekend met de stof die in de vraag getoetst wordt, of er zijn misvattingen aanwezig.

 

Analyseer je toetsvraag

Onderstaande meerkeuzevraag had een p-waarde van 0.22 en een rir-waarde van -0.45. Slechts weinig leerlingen kozen het juiste antwoord, en opvallend genoeg maakten betere leerlingen de vraag vaker fout dan zwakkere leerlingen. Zo’n patroon wijst op een vraag die niet goed werkt: de vraag is erg moeilijk, en maakt geen onderscheid op basis van beheersing.

Maar waar ligt het precies aan? Als deze vraag een belangrijk leerdoel toetst, is de eerste vraag of de bijbehorende stof wel op herkenbare en inzichtelijke wijze in de les aan bod is gekomen. Als de didactiek onvoldoende voorbereidt op het soort denkwerk dat deze vraag vereist – bijvoorbeeld het toepassen van begrippen als ‘inzicht’ en ‘proefondervindelijk leren’ in een biologisch gedragsvoorbeeld – dan is het logisch dat leerlingen, zelfs de sterke, vastlopen.

 

Maak overzichtelijke analyse van alle vragen

Er zijn ook vragen die op het eerste gezicht goed lijken te functioneren, bijvoorbeeld omdat een groot deel van de leerlingen ze correct beantwoordt (deze vragen hebben dan een hoge p-waarde). Toch is het ook bij zulke vragen waardevol om verder te kijken: hoe is de spreiding over de antwoordopties? En maken vooral de sterkere leerlingen de vraag goed? Dat kun je analyseren door de item-responsgrafieken erbij te pakken – visualisaties waarin per vraag wordt weergegeven hoe leerlingen in verschillende scoregroepen hun antwoorden verdelen.

Een item-responsgrafiek maak je door leerlingen te verdelen in groepen op basis van hun totaalscore (bijvoorbeeld in vier kwartielen). Vervolgens geef je per antwoordoptie aan welk percentage leerlingen uit elke groep dat antwoord heeft gekozen. Het juiste antwoord hoort vaker gekozen te worden naarmate de totaalscore stijgt, afleiders juist minder vaak. Zie je dat patroon niet – of zelfs het tegenovergestelde – dan is het item mogelijk verwarrend, te moeilijk of niet goed afgestemd op de lesstof.

Bijvoorbeeld voor onderstaande vraag 4 (p = 0.26, rir = -0.27) was er geen consistentie zichtbaar: sterke én zwakke leerlingen kozen vaker het verkeerde antwoord.

 

Figuur 2: itemresponsgrafiek voor toetsvraag 4 met een p-waarde van 0.26 en rir van -0.26

In de bijbehorende item-responsgrafiek in figuur 2 is te zien dat het juiste antwoord (geel) niet steeds vaker gekozen wordt naarmate de totaalscore op de toets van die leerling stijgt. Leerlingen die dus beter scoorden op de toets, maakten juist deze vraag vaker fout. Een dergelijk patroon wijst op een onduidelijke formulering of verwarrende inhoud: leerlingen die de stof beheersen worden kennelijk toch misleid door de vraag.

Open vragen stellen doorgaans hogere eisen aan de denkkracht en taalvaardigheid van leerlingen. Bij dit soort items is het essentieel dat de formulering helder is, de context herkenbaar en de beoordelingscriteria transparant. Wanneer leerlingen moeite hebben om de vraag te interpreteren of als onduidelijk is wat er precies gevraagd wordt, ontstaat er ruis – en wordt het onderscheidend vermogen van het item beperkt.

Een toetsvraag moet teruggrijpen op leerdoelen die in de les zijn behandeld en aansluiten bij het type denken of toepassen dat geoefend is tijdens de lessen.

Als ook sterke leerlingen het juiste antwoord niet herkennen – ondanks een goede beheersing van de stof – dan is de kans groot dat de toetsvraag niet goed is afgestemd op de aangeboden didactiek of onvoldoende duidelijk toetst wat beoogd was.

De driehoek tussen leerdoel, onderwijs en toetsing raakt dan uit balans: de toets is geen betrouwbare spiegel van het leerproces. Om precies te achterhalen waarom vragen slecht functioneren is het raadzaam om ze met leerlingen te spreken: waarom hebben ze bepaalde antwoorden gekozen of hoe hebben ze de vragen geïnterpreteerd?

Een slecht cijfer op een toets ligt niet per se aan de leerling. Het is ook goed mogelijk dat de toetsmaker last heeft van de ‘vloek van kennis’ (meer weet dat hij of zij zich realiseert) en een toetsvraag daarom heel anders leest dan de leerling.

 

Slecht functionerende vragen schrappen?

Wat gebeurt er met de betrouwbaarheid van een toets als je de slechtst functionerende vragen achteraf gewoon schrapt? Door de 7 items met de laagste rir-waarden uit bovenstaande biologietoets voor havo 4 te verwijderen, steeg de betrouwbaarheid van 0.11 naar 0.64. Nog niet ideaal, want volgens de ‘vuistregels van psychometrie’ moet de betrouwbaarheid rond .80 zijn bij een belangrijke summatieve beslissing, maar het is wel een aanzienlijke verbetering.

Maar toetsvragen uit een toets halen om de statistieken te verbeteren is een slecht idee. Vraag je eerst af of een toetsvraag wel of niet bij de huidige toets hoort. Ook kan het achteraf verwijderen van toetsvragen oneerlijk zijn voor leerlingen. Zij hebben immers kostbare toetstijd verspild om antwoorden te geven op deze problematische toetsvragen – tijd die ze aan andere toetsvragen hadden kunnen besteden.

 

Samenvatting

Deze voorbeeldanalyse laat zien dat een toetsanalyse kan helpen om de kwaliteit van het toetsinstrument te verbeteren.

Een toets zegt niet alleen iets over wat leerlingen weten, maar ook over wat en hoe er getoetst wordt. En soms begint dat met een eenvoudige vraag: wat zegt deze toets eigenlijk écht?

Zelf ook een toetsanalyse maken? Dat kan met mijn gratis online tool Toetsanalyser.

– – –

Deze analyse is uitgevoerd met ToetsAnalyser van mometRie. De getoonde cijfers en grafieken zijn afkomstig uit een echte biologietoets voor havo 4, geanonimiseerd voor publicatie.

 

Noten

  1. [Zie voorbeeld bij maatschappijleer https://toetsrevolutie.nl/constructieve-afstemming-bij-maatschappijleer/
  2. Vantilborgn, T. (2023). Principes van de psychometrie. Hoe beoordeel je de kwaliteit van psychologische testen? Acco learn: Leuven.

Auteur

  • Monika is adviseur bij Toetsrevolutie en is gepromoveerd in psychometrie over een eerlijk cesuurstellingsproces bij examens. Met meer dan tien jaar ervaring heeft Monika haar expertise gebruikt om examenaanbieders verder te helpen met gericht psychometrisch advies. Door middel van ondersteuning om individuele R-scripts te schrijven om het analyseproces te automatiseren, heeft ze bijgedragen om de kwaliteit van examens empirisch te onderbouwen.

    Bekijk Berichten

Auteur

  • Monika is adviseur bij Toetsrevolutie en is gepromoveerd in psychometrie over een eerlijk cesuurstellingsproces bij examens. Met meer dan tien jaar ervaring heeft Monika haar expertise gebruikt om examenaanbieders verder te helpen met gericht psychometrisch advies. Door middel van ondersteuning om individuele R-scripts te schrijven om het analyseproces te automatiseren, heeft ze bijgedragen om de kwaliteit van examens empirisch te onderbouwen.

    Bekijk Berichten

Nieuwe blogs