Toetsanalyses bieden gedetailleerde inzichten in de moeilijkheidsgraad van vragen, hun discriminerend vermogen, de betrouwbaarheid van de resultaten, en kunnen zelfs helpen bij het bepalen van een cesuurscore. Het klinkt erg complex en wiskundig, maar ik zal aan de hand van praktijkvoorbeelden uitleggen hoe je zelf verschillende berekeningen kunt uitvoeren en hoe je deze resultaten kunt gebruiken in de dagelijkse schoolpraktijk.
Van toetsresultaten kun je leren
Hoewel summatieve toetsen vaak bedoeld zijn om een leerperiode af te sluiten, bieden ze ook een kans voor zowel leerkrachten als leerlingen om ervan te leren (de Groot & van Naerssen, 1969). Als leerkracht kun je toetsen gebruiken om je eigen verwachtingen of hypotheses te toetsen. Bijvoorbeeld, om informatie te verzamelen over de effectiviteit van het gegeven onderwijs en om te toetsen of om te toetsen of de leerlingen hebben begrepen wat jij wilde dat ze zouden begrijpen. Om de toetsresultaten op de individuele toetsvragen te analyseren en deze te gebruiken bij de toetsbespreking, kunnen leerlingen hun foute antwoorden beter duiden. Bijvoorbeeld, een leerling zou kunnen denken “Deze toetsvraag werd door 80% van de leerlingen in de klas goed gemaakt, hoe komt het dan dat ik zelf deze vraag fout had?”.
Voor leerkrachten bieden de toetsanalyses een kans om eigen bewustzijn van de onderwijskwaliteit systematisch te onderzoeken en om het onderwijsproces voor de volgende toetsafname wellicht bij te sturen. En het is ontzettend leuk om op een systematische manier te ontdekken welke toetsvragen wel of niet goed werken; en om inzicht in de prestatie van de leerlingen te krijgen en vervolgens allerlei leuke grafieken te tekenen!
Voorbeelden uit de praktijk
Samir, een ervaren biologieleraar, hanteert traditionele lesmethoden, waarbij hij de nadruk legt op herhaling van oefeningen uit het leerboek. Hij gelooft dat dit de beste voorbereiding is voor de toetsen en merkt tijdens toetsen dat sommige leerlingen moeite hebben met de vragen. Echter, hij ziet dit als een gebrek aan inzet of aandacht van de leerlingen. Bij het nakijken van de toetsen constateert hij wisselende resultaten, die hij interpreteert als een reflectie van de individuele inspanningen en capaciteiten van de leerlingen. Hij geeft feedback, maar besteedt geen tijd aan het bespreken van de toetsresultaten in de klas.
Emma, de geschiedenislerares, voegt een statistische dimensie toe aan haar toetsanalyse. Naast het observeren van leerlingreacties tijdens de toets, verzamelt ze data over welke vragen het meest correct en incorrect beantwoord worden. Ze berekent het percentage correcte antwoorden per vraag, en identificeert patronen in de moeilijkheidsgraden. Verrassend genoeg onthullen haar analyses dat vragen die ze als makkelijk beschouwde, hogere foutpercentages hadden. Deze inzichten gebruikt ze om tijdens de les een gedetailleerde grafische weergave van de toetsresultaten te presenteren, waarmee ze de discussie met de leerlingen aangaat over hun denkprocessen en studiestrategieën. Emma gelooft dat deze manier van toetsbespreking de leerlingen helpt om zelfreflectie toe te passen en dat het haar zelf helpt om de effectiviteit van de vraagstelling van de toetsen te evalueren.
Toetsanalyses: Hoe heeft Emma de analyses uitgevoerd?
Stel je eens voor dat Emma in de docentenkamer een gesprek aanging met Samir over toetsanalyses. “Ik heb gemerkt dat mijn leerlingen bewuster zijn gaan leren als ik de tijd neem om de toetsresultaten grondig te analyseren en hun feedback te integreren tijdens de toetsbespreking,” zei Emma enthousiast. Samir wilde daar meer over weten en ze besloten samen een toetsanalyses te doen aan de hand van een klein voorbeeld met 4 leerlingen en 4 vragen.
Om de toetsanalyses uit te voeren, is het nodig om alle antwoorden van alle leerlingen op alle toetsvragen te verzamelen. Deze ziet er als volgt uit: in elke cel staat het aantal punten dat een leerling per vraag heeft gekregen. Daarnaast is in de laatste kolom de totaalscore voor elke leerling berekend, dus hoeveel punten een leerling in totaal over vier vragen heeft verdiend. ( Met behulp van Excel kan je de berekeningen sneller en makkelijker uitvoeren.)
Vraag1
(Max 1) |
Vraag2
(Max 4) |
Vraag3
(Max 3) |
Vraag4
(Max 3) |
Totaalscore | |
Leerling1 | 0 | 4 | 3 | 3 | 0+4+3+3=10 |
Leerling2 | 1 | 3 | 2 | 2 | 8 |
Leerling3 | 0 | 1 | 2 | 0 | 3 |
Leerling4 | 1 | 2 | 1 | 1 | 4 |
Als je nu per vraag de som van de punten van de leerlingen neemt en deze vervolgens deelt door het totale aantal leerlingen (dus door 4), krijgt je de gemiddelde score per vraag.
Vraag1 | Vraag2 | Vraag3 | Vraag4 | |
Som | 0+1+0+1=2 | 10 | 8 | 6 |
Vraag1 | Vraag2 | Vraag3 | Vraag4 | |
Gemiddeld | 2 : 4 = 0,5 | 10 : 4 = 2,5 | 8 : 4 = 2 | 6 : 4 = 1,5 |
Bijvoorbeeld, de gemiddelde score van de 4 leerlingen op vraag 1 is 0,5. Op die vraag kon je maximaal 1 punt verdienen. En de gemiddelde score op vraag 4 is 1,5. Op die vraag kon je maximaal 3 punten verdienen.
Moeilijkheid van de toetsvragen (P-waarde) berekenen
Als de toets bestaat uit vragen waarvoor leerlingen per toetsvraag een ander aantal punten kunnen verdienen, zoals hier, zijn deze scores lastig te interpreteren. Daarom is het verstandig om de gemiddelde score te delen door het maximaal aantal punten dat per vraag te verdienen is, zodat je de moeilijkheid van de vragen onderling kan vergelijken.
Vraag1 | Vraag2 | Vraag3 | Vraag4 | |
p-waarde | 0,5 : 1 = 0,5 | 2,5 : 4 = 0,625 | 2 : 3 = 0,667 | 1,5 : 3 = 0,5 |
De waarde die je nu berekend hebt, wordt in de psychometrie ook de p-waarde genoemd. Het geeft aan welk proportie (p) van uw leerlingen alle punten per vraag hebben ‘verdiend’. De p-waarde staat ook bekend als index voor de moeilijkheid. Waarbij kleine p-waarde aangeeft dat vraag moeilijker is dan een hoge p-waarde. Om deze p-waardes te interpreteren, is het vaak makkelijker om ze te visualiseren en van klein naar groot te ordenen. Dan zie je dat de vraag 1 de laagste p-waarde heeft en vraag 3 de hoogste. Daarnaast is het slim om vragen uit dezelfde onderdelen dezelfde kleur te geven.
Leuk, maar wat heb je aan deze resultaten in je klas?
Ten eerste zou je kunnen concluderen dat vraag 1 de moeilijkste is van de vier vragen, omdat de minste leerlingen vraag 1 correct beantwoorden. Daarnaast zou je kunnen concluderen dat vraag 3 de makkelijkste is omdat het grootste gedeelte van de leerlingen alle punten voor die ene vraag hebben ontvangen. En de vraag die je hier dan bij mag stellen: komen deze p-waardes overeen met je verwachtingen van de moeilijkheid per vraag die je voor de toetsafname had geformuleerd?
Door voorafgaand aan de toetsafname een hypothese te formuleren over de moeilijkheid van de toetsvragen kan je je eigen kleine onderzoekshypotheses steeds testen. Je zou ze ook kunnen gebruiken om je eigen onderwijs-effect te evalueren – komen jouw verwachtingen overeen met wat je bij de leerlingscores terugziet? En het allerbelangrijkste, waardoor worden de verschillen verklaard? Wellicht een leuk idee om dit samen met je leerlingen bij de toetsbespreking door te nemen?
Naast de p-waarde zijn er ook andere berekeningen die de kwaliteit van de vragen aangeven. Dus bijvoorbeeld het onderscheidend vermogen van de toetsvragen. Het geeft aan hoe goed een toetsvraag leerlingen met zeer hoge totaalscores op de gehele toets kan differentiëren van de leerlingen met zeer lage totaalscores op de toets. Hierover meer in de volgende blog.
Conclusie
Elk toetsvraag als een afzonderlijke onderzoekshypothese te beschouwen is relevant. Toetsanalyses bieden onder andere inzichten in de moeilijkheid van vragen in je klas. Door toetsanalyses uit te voeren worden toetsen niet alleen gebruikt om leerlingen te becijferen, maar bieden een uitstekende kans om het onderwijsproces te evalueren – mits er vooraf een heldere hypothese geformuleerd is.
Het verhaal van Samir en Emma illustreert hoe leerkrachten toetsanalyses in de klaspraktijk kunnen gebruiken, en wellicht ook om leerlingen te ondersteunen bij hun eigen leerproces. Door hypotheses te formuleren over de verwachte moeilijkheid van vragen en deze te vergelijken met de daadwerkelijke resultaten, kunnen sterke en zwakke punten worden geïdentificeerd.
Kortom, toetsanalyses zijn een waardevol instrument om meer inzicht te krijgen in het leerproces. Hoe gebruik jij de toetsresultaten in je eigen klaspraktijk? Ik ben zeer benieuwd.
Links
Lees ook: Hoe cesuurbepaling bijdraagt aan eerlijker onderwijs.
Literatuur
de Groot, A. D., & van Naerssen, R. F. (1969). Studietoetsen : Construeren, afnemen, analyseren. Den Haag: Mouton.
Auteur
-
Monika is adviseur bij Toetsrevolutie en is gepromoveerd in psychometrie over een eerlijk cesuurstellingsproces bij examens. Met meer dan tien jaar ervaring heeft Monika haar expertise gebruikt om examenaanbieders verder te helpen met gericht psychometrisch advies. Door middel van ondersteuning om individuele R-scripts te schrijven om het analyseproces te automatiseren, heeft ze bijgedragen om de kwaliteit van examens empirisch te onderbouwen.
Bekijk Berichten