Programmatisch toetsen: twee grote misvattingen

okt 12, 2022

, , ,

 

Vrijwel alle hogescholen werken inmiddels (verder) aan het implementeren van programmatisch toetsen vanuit de inhoudelijke drijfveer dat het beter is om studenten niet te vroeg te beoordelen op losstaande momentprestaties, maar vanuit een longitudinaal perspectief. Door de traditionele beoordeling aan het einde van een module weg te nemen, en de ontwikkeling op de lange termijn in kaart te brengen hoopt men het leren voor de korte termijn door studenten (‘zweten, weten en vergeten’) te doorbreken. Op deze wijze zou er bij de student meer motivatie kunnen ontstaan voor het leren op de langetermijn en de ontwikkeling van complexe beroepsvaardigheden.

Er is ook een meer beleidsmatige reden voor programmatisch toetsen. De in voorbereiding zijnde Wet Leeruitkomsten Hoger Onderwijs (waardoor meer persoonlijke leerroutes binnen de opleiding mogelijk kunnen worden gemaakt), lijkt de beweging naar een andere wijze van toetsing wind in de zeilen te geven. Op managementniveau wordt programmatisch toetsen als geschikte en moderne beleidsinvulling beschouwd in het werken met leeruitkomsten en daaraan gekoppeld leerwegonafhankelijk beoordelen.

Hoewel we positief tegenover de ambities van programmatisch toetsen staan[1], hebben we vorig jaar ook onze zorgen geuit in de veelgelezen blog Programmatisch toetsen: Wél evidence-informed, maar niet zonder buikpijn. Daarbij hebben we ons gericht op twee – naar ons idee – belangrijke pijnpunten: 1) programmatisch toetsen vraagt (te) veel van de capaciteiten en tijd van docenten en de organisatie, en 2) de vertroebeling in de functies en spelregels van feedback in het leerproces en de beoordeling gericht op een summatieve beslissing. We ondersteunden daarin in essentie het concept en de ambitie van programmatisch toetsen, maar constateerden ook dat het concept nog te veel in de praktische kinderschoenen staat om al op grote schaal te kunnen worden geïmplementeerd.

Nu ook de Raad van State zich kritisch heeft uitgelaten over de beoogde wet Leeruitkomsten Hoger Onderwijs[2], ontstaat de vraag of hogescholen die programmatisch toetsen willen implementeren of aan het implementeren zijn niet ­in een perfect storm aan het varen zijn. Een waarin de onuitvoerbaarheid van het concept door docenten, de conceptuele kinderziektes van programmatisch toetsen en de abstractie van leeruitkomsten zullen leiden tot een moeilijk te kenteren niveaudaling van studenten en afgestudeerden, waardoor er uiteindelijk vanuit de samenleving weer grote vraagtekens gezet zullen worden bij de waarde van de afgegeven diploma’s.

Het lijkt ons van belang dat het hoger beroepsonderwijs constructief-kritisch omspringt met experimentele en fundamentele vernieuwingen zoals programmatisch toetsen, om te voorkomen dat de kwaliteit van toetsing opnieuw ter discussie wordt gesteld. Met deze blog willen we in aanvulling op onze eerdere blog, dit belangrijke positief kritische gesprek graag voeden door twee sterk aanwezige misvattingen rond programmatisch toetsen te benoemen, namelijk dat programmatisch toetsen een generiek toetsconcept zou zijn, en dat beslissingen op basis van veel en gevarieerde datapunten per definitie betrouwbaar en valide zijn.

 

Programmatisch toetsen is geen generiek toetsconcept

In het vorig jaar verschenen boek Programmatisch toetsen: voorbeelden en ervaringen uit de praktijk beschrijven de auteurs Baartman, van Schilt-Mol en van der Vleuten dat programmatisch toetsen niet begrepen moet worden als een blauwdruk, maar als een toetsconcept. ‘Het is een concept met een aantal uitgangspunten om de toetsing vorm te geven en dat betekent dat het nadrukkelijk géén recept of voorbeeld is’.[3]

Daarbij stellen ze iets verderop: ‘Programmatisch toetsen is een generiek toetsconcept: het is geschikt voor ieder type onderwijs,’ om daarna te vervolgen met een essentiële nuancering: ‘tenminste, wanneer de visie op leren van de opleiding aansluit op een constructivistisch onderwijsconcept’.[4]

Voor de helderheid: het constructivisme is een verzameling kennistheorieën waarbij de centrale idee is dat de studenten zelf hun kennis en kunde creëren in samenwerking met anderen, vanuit de gedachte dat dit beter is dan het passief ontvangen van informatie door anderen. Een bekende praktijk op basis van deze kennistheorieën is het Agora-concept dat op een aantal middelbare scholen in Nederland te vinden is. Agora wordt dan ook door veel pionierende opleidingen als inspiratiebron genoemd.

In die zin is het twijfelachtig of men wel kan stellen dat programmatisch toetsen een generiek toetsconcept kan zijn, daar het wel een hele specifieke visie van de onderwijsgevenden vereist. Dit onderschrijven de auteurs ook in hun boek op pagina 25:

Als zo’n [constructivistisch] onderwijsconcept niet wordt onderschreven, heeft programmatisch toetsen geen enkele zin. Dat is bijvoorbeeld het geval als het programma bestaat uit afzonderlijke vakken, die allemaal behaald moeten worden. Er is dan weinig ruimte voor programmatisch toetsen. Is er sprake van lange leerlijnen in een onderwijsprogramma, zijn generieke vaardigheden belangrijk en wordt zelfsturing van de student verwacht? Dan kan programmatisch toetsen heel geschikt zijn.”

Naar ons idee zou je daarom in twijfel kunnen trekken of het hier eigenlijk een toetsconcept betreft, en niet gewoon een algeheel onderwijsconcept: van docenten wordt verwacht dat ze een meer coachende rol op zich nemen. Zo wordt instructietijd ingeruild voor tijd om feedback te kunnen geven. In plaats van lessen inhoudelijk voorbereiden besteden docenten nu veel tijd aan kalibreren: het bestuderen van opbrengsten van studenten om tot eenzelfde kwaliteitsbesef en eenzelfde feedbackinformatie te komen. Bij veel opleidingen wordt gekozen voor kleine groepen studenten per docent, met veel contacturen gedurende de week. Daarnaast blijkt uit de vele gesprekken die we hebben gehad dat het overbrengen van feitenkennis ook als minder belangrijk wordt ervaren bij opleidingen die met programmatisch toetsen aan de slag gaan.

Van studenten wordt binnen programmatisch toetsen ook een ander gedrag gevraagd. Studenten zullen zelf (meer) initiatief moeten tonen, zelf (mede) leerdoelen moeten opstellen, en bewijs moeten aanleveren dat ze vorderingen maken richting bepaalde leerdoelen. Met een passief-consumptieve leerhouding kom je als student niet ver binnen deze aanpak.

Er is inmiddels al heel wat gediscussieerd over de vraag of constructivisme[5] nu wel of geen waardevolle visie op onderwijs is, en of iedere student wel gebaat is bij zo’n aanpak. Het is hier ook niet ons doel daar een uitspraak over te doen. Wel denken we dat het goed is als opleiding beseffen dat als je kiest voor programmatisch toetsen er – gevraagd of ongevraagd – ook een specifieke didactische en pedagogische onderwijsaanpak dan wel visie mee gepaard gaat.

 

Beslissingen, maar waarover?

Een belangrijk uitgangspunt van programmatisch toetsen is het nemen van zwaarwegende beslissingen op basis van een grote en gevarieerde set aan datapunten die worden verzameld gedurende een langere periode. Hiervoor is een aantal onderbouwde argumenten te geven. Een eerste argument is dat één meting nooit een goede meting kan zijn, omdat elke toets kwaliteitsbeperkingen kent waarvan de student niet de dupe mag worden. Er is dus meer data nodig om tot zorgvuldige beslissingen te komen, waarbij de stelregel kan zijn hoe complexer de prestatie, hoe meer datapunten nodig zijn om deze goed te kunnen beoordelen. Een tweede argument is dat leren een grillig en onvoorspelbaar proces is, waardoor het niet eerlijk zou zijn alle studenten op hetzelfde moment ‘af te rekenen’ op een toetsresultaat. Programmatisch toetsen geeft studenten tijd en ruimte om tot een goede prestatie te komen. Een derde argument is dat datapunten ook informatie over het leerproces van de student bevatten. Het idee bij programmatisch toetsen is dat elk van deze datapunten (activiteiten, producten, toetsen, etc.) zoveel mogelijk worden voorzien van feedback: ‘Wat betekent dit voor waar ik sta?’, ‘Waar moet ik heen?’ en ‘Hoe kom ik daar?’. Datapunten en feedback worden vervolgens verzameld in een al dan niet ICT-ondersteund data-verzamelsysteem, deels vanuit de regie van de student zelf.

Op het moment dat er een zwaarwegende beslissing over de student moet worden genomen, gebeurt dit op basis van alle verzamelde datapunten inclusief feedback. In een hbo-opleiding houdt een dergelijke beslissing in de regel in of er 15, 30 of 60 studiepunten (EC) wel of niet worden toegekend, omdat een uitgangspunt van programmatisch toetsen is dat er niet te snel over te kleine eenheden beslissingen worden genomen. Met andere woorden: zwaarwegende, summatieve oordelen worden uitgesteld.

De centrale gedachte bij deze aanpak is dat meerdere datapunten nodig zijn dat de verzamelde data een goede weergave zijn van de capaciteiten van de student. Ter illustratie hiervan wordt vaak de metafoor van de Mona Lisa gebruikt. In deze metafoor wordt gesteld dat je op basis van te weinig datapunten (c.q. pixels) nog geen goed beeld hebt. Hoe meer ‘pixels’ je verzamelt, hoe herkenbaarder de Mona Lisa wordt.

A picture containing text, tiledDescription automatically generated

Figuur 1. Een nemen van een betrouwbare en valide beslissing heeft tijd en veel datapunten nodig, binnen de theorie van programmatisch toetsen..

 

Het probleem van subjectiviteit

Door het verzamelen van veel datapunten die worden voorzien van feedback door verschillende bronnen (bijv. de stagebegeleider, een medestudent, en de docent), wordt in programmatisch toetsen de intersubjectiviteit versterkt. Door niet alleen te investeren in deze intersubjectiviteit tijdens het leerproces, maar ook bij de beoordeling door de inzet van meerdere beoordelaars, wordt de aanname gedaan dat dit de kwaliteit van de zwaarwegende beslissing ten goede komt. Als je immers de beschikking hebt over een grote set aan subjectieve oordelen dan zou de beslissing op basis hiervan desondanks betrouwbaar en valide moeten zijn.

Zo staat er te lezen in het boek Programmatisch toetsen: ‘De oordelen zijn per definitie subjectief, maar een groot aantal subjectieve oordelen samen levert wel een robuuste beoordeling van de student op’. (p. 18).

Toch valt te betwijfelen of dit altijd echt het geval zal zijn. Want hoe weten we nu dat de pixels precies op de plek terechtkomen om tot een mooie Mona Lisa te komen en er niet een schilderij ontstaat van een groot aan onsamenhangende verzameling aan ‘pixels’ die alles behalve een duidelijk beeld vormen? Of een beeld ontstaat waar de neus, oren en ogen op een heel ander plek staan dan bedoeld, of de neus wel misschien helemaal ontbreekt? Het is dan moeilijk om tot een robuuste beoordeling te komen.

Het risico dat wij zien is dat er een te grote, wellicht ook wat instrumentele focus komt te liggen op het verzamelen van datapunten en feedback, maar er onvoldoende aandacht is voor de samenhang tussen de datapunten. Het concept leidt zodoende dus tot een catch-22. Het verzamelen van datapunten, waarbij ieder punt informatie bevat over ‘waar sta ik nu?’, ‘waar moet ik naartoe?’ en ‘wat moet er nu gebeuren?’ is van zichzelf onvoldoende om op ‘robuuste’ wijze om beoordeling van studenten mogelijk te maken. Deze robuustheid kan pas tot uiting komen binnen een weldoordacht en door de opleiding gestuurd curriculum, welke echter haaks zal staan op de constructivistische visie waarop programmatisch toetsen rust.

 

Naar een samenhangend onderwijsontwerp als cement tussen datapunten

Om de principes van programmatisch toetsen in praktijk te brengen zoals beoogd, zien wij vooral kansen in het denken over en werken aan een betere aansluiting tussen doelen, toetsing en didactiek. Zolang een student niet weet waarnaartoe wordt gewerkt en hoe dat eruitziet, is het niet realistisch van de student te verwachten dat deze weet welke feedback wanneer gevraagd moet worden, of hoe ontvangen feedback moet worden gebruikt. De student gaat dan vooral in de activiteitengerichte modus: ‘Ik moet voor die datum bij drie mensen hierover feedback hebben gevraagd.’

In die zin is de metafoor van de Mona Lisa dan ook een verwarrende. Het impliceert dat er ‘iets’ al is, wat nog in beeld moet worden gebracht door het verzamelen van datapunten, terwijl een student ook door het leerproces aan iets bouwt wat er nog niet is. Een metafoor van Lego-stenen en een Lego-bouwwerk, zou daarom wellicht treffender zijn geweest.

Figuur 2: Een portret van Legostenen is wellicht een treffendere metafoor (dit portret is gemaakt door Ernesto Lemke en Marco ten Hoff)

Daarnaast blijven wij – in lijn met onze eerdere blog – voorstander van het scheiden van de zogenaamde “blauwe” en “rode” datapunten (zie Figuur 3). Blauwe data zijn bedoeld om studenten houvast en richting te geven in het leerproces. Deze vaak specifieke informatie is gericht op het komen tot vervolgacties in het licht van beoogde doelen en kortetermijngericht: de student kan met deze vervolgactie(s) meteen aan de slag. Blauwe data worden bij voorkeur alleen door de student verzameld en gebruikt om actief in het leerproces te kunnen blijven (bijv. in een ontwikkelingsportfolio), maar worden niet gebruikt voor beoordelingsdoeleinden. Rode data daarentegen zijn zeer geschikt om op te nemen als bewijsmateriaal voor zelfstandige beheersing, en daarmee passend om op te nemen in een beoordelingsportfolio dat door een pool van beoordelaars kan worden beoordeeld. Deze informatie is dus bedoeld om aan het einde van een onderwijsperiode een valide beslissing te kunnen nemen over de periodedoelen. Bij voorkeur is er een beperkte, maar wel rijke set aan rode datapunten. Dit maakt de beoordelingsprocedure behapbaar en maakt het mogelijk om tot heldere beslisregels te komen.

Figuur 3. Een rijke set aan blauwe en rode datapunten tijdens een onderwijsperiode

 

Door bewust te zijn van het type datapunten en de functie daarvan in het onderwijsontwerp als geheel, wordt samenhang aangebracht tussen datapunten. Het is deze samenhang die nodig is om een schilderij op te bouwen dat uiteindelijk ook tot een goed beeld leidt van wat je beoogde, oftewel om van Lego-stenen te komen tot een betekenisvol bouwwerk. Is die samenhang er niet, dan blijft het risico dat de Lego-stenen niet met elkaar worden verbonden zoals je hoopt en je te veel achteraf er chocola van moet zien te maken. Dus hoewel er bij programmatisch toetsen pas na een lange periode beoordeeld wordt, is ook programmatisch toetsen gebaat bij een helder ontwerp vooraf.

Dit alles vraagt om een (her)bezinning op de rollen binnen programmatisch toetsen: wie heeft op welk moment welke verantwoordelijkheid in het verzamelen van data en het voorzien van feedback op deze data? Op basis van welke kennis over leren en de kenmerken van onze studenten bepalen we dat? Hoe weten we dat ieder die rol kan uitvoeren binnen de gestelde condities? Hoe blijven we alert op het belang voor de student? Ook vraagt het om een kritische analyse op de grootte van de doelen in een curriculum. In hoeverre geven leeruitkomsten studenten voldoende houvast om te bepalen welke datapunten nodig zijn? Hoe zorgen we ervoor dat studenten begrijpen wat een eerste, behapbaar doel is? Hoe eerder helder is via welke weg de student toewerkt naar grote curriculumdoelen, hoe beter de student snapt waarom daar bepaalde dataverzameling en feedback voor nodig is.

 

Tot slot

Met deze blog hebben we twee grote misvattingen over programmatisch toetsen benoemd. Allereerst hebben we duidelijk proberen te maken dat het verwarrend is om te spreken over programmatisch toetsen als generiek toetsconcept, en dat het beter is om te spreken over programmatisch toetsen als een sociaal-constructivistisch onderwijsconcept.

Daarnaast hebben we enkele argumenten gegeven waarom het verzamelen van veel datapunten die van feedback worden voorzien en worden beoordeeld door meerdere actoren nog geen garantie is voor een betrouwbare en valide beslissing en waarom daarbij constructieve afstemming met heldere korte- en langetermijndoelen essentieel is.

Al met al denken we dat programmatisch toetsen nog vooral theorie is. We denken dat het concept zich nog onvoldoende in de context van het hbo uitgekristalliseerd heeft om al op grote schaal te worden geïmplementeerd, en dat er nog veel onderzoek en goede monitoring nodig is en blijft. We zien daarbij nog steeds constructieve afstemming, achterwaarts ontwerpen en formatief handelen als de succesfactoren om programmatisch toetsen tot uitvoering te laten komen. En daarbij trouw te blijven aan de wetenschappelijk onderbouwde kennis over toetsing die aan programmatisch toetsen ten grondslag ligt.

 

Noten

  1. Bijvoorbeeld door er aandacht aan te besteden in ons boek Toetsrevolutie: naar een feedbackcultuur in het hoger onderwijs.
  2. Bijv. “De Afdeling advisering van de Raad van State constateert dat het experiment leeruitkomsten enthousiast is opgepakt door de deelnemende hogescholen, maar ook dat de evaluatie te vroeg is gehouden om uitspraken te kunnen doen over de belangrijkste evaluatiecriteria, te weten het aantal afgestudeerden en het gerealiseerde eindniveau. De meeste studenten hebben immers hun studie nog niet afgerond.” https://www.raadvanstate.nl/@128187/w05-21-0385/
  3. (p. 16)
  4. (p. 25)
  5. Zie bijv. https://www.scienceguide.nl/2019/10/constructivisme-is-een-slechte-didactische-raadgever/

 

Auteurs

  • René Kneyber

    René Kneyber is voormalig docent wiskunde. Hij schreef en vertaalde meer dan vijftien boeken, waaronder Toetsrevolutie. Sinds 2015 is hij kroonlid van de Onderwijsraad. Samen met Valentina Devid en Flemming van de Graaf maakt hij de LLEARN-podcast

  • Dominique Sluijsmans

    Dominique Sluijsmans is onderwijskundige met een specialisatie op het gebied van toetsing. Ze schreef diverse succesvolle en invloedrijke boeken zoals Wijze Lessen en Toetsrevolutie.

  • Hilly Drok

    Hilly Drok is docent Nederlands. Sinds haar master Professioneel Meesterschap houdt zij zich bezig met formatief handelen in haar eigen onderwijs en daarnaast implementeert zij middels professionele leergemeenschappen (plg’s) een formatieve cultuur op haar school. Voor Toetsrevolutie geeft zij trainingen en schrijft zij blogs.

  • Valentina Devid

    Valentina Devid is docent geschiedenis en levensbeschouwing. Ze is ervaringsexpert op het gebied van formatief handelen en een veelgevraagd spreker over dit onderwerp. Samen met René Kneyber en Flemming van de Graaf maakt ze de LLEARN-podcast.

Aanbevolen artikelen