Programmatisch toetsen: evidence-informed, maar niet zonder buikpijn

door , , | jun 30, 2021 | Blog

, ,

 

Toetsing is en blijft belangrijk voor studenten. Het stuurt het studeergedrag en geeft helderheid over wat ze wanneer op welke wijze moeten aantonen. Toetsing vanuit de summatieve functie heeft tot doel om een aantal dingen vast te stellen: Is er daadwerkelijk geleerd? Is er sprake van langetermijnbegrip? Kan de student het zelfstandig? Kan de student dit ook toepassen buiten de context waarin het geleerd is? Om dit allemaal valide te beoordelen is één toets op één moment niet voldoende; we beoordelen dan immers momentprestaties in plaats van leren.[1] Bovendien kan een leerproces grillig verlopen, met onverwachte sprongen of een moment van stilstaan of terugvallen. Daarnaast is het beoordelen van complexe beroepscompetenties enkele toetsmomenten lastig en is het niet wenselijk een beoordelingssystematiek te kiezen waarin allerlei deelaspecten te fragmentarisch en onsamenhangend worden beoordeeld.

In de zoektocht om toetsing en het leerproces elkaar te laten versterken is de laatste jaren het concept van programmatisch toetsen aan een stevige opmars bezig, met name in het hoger onderwijs. In de kern wordt bij programmatisch toetsen een student niet afgerekend op afgebakende prestaties (zoals toetsen), maar wordt de hele ontwikkeling van de student beoordeeld. Zwaarwegende beslissingen worden uitgesteld waardoor de student tijd en ruimte krijgt om vorderingen te maken en te tonen. Recent is een aantal ervaringen hiermee opgetekend in een mooi boek [2]. Hierdoor ontwikkelen we steeds meer kennis over wat de implementatie van dit concept met zich meebrengt.

Met deze blog willen we een pas op de plaats nemen en opleidingen behoeden voor een al te haastige omarming van het idee van programmatisch toetsen. Het concept is op dit moment nog onvoldoende uitgewerkt, bevat te veel praktische en reële haken en ogen, en zou ondanks de belofte mogelijk ook een dwaalspoor kunnen zijn. Daarmee willen we programmatisch toetsen zeker niet afschrijven, maar wel van een stevig waarschuwingsbord voorzien.

De uitgangspunten van programmatisch toetsen

Constructieve afstemming (constructive alignment; zie figuur 1) vormt de basis van programmatisch toetsen, waarbij vanuit heldere doelen een goede aansluiting en samenhang wordt gerealiseerd met de vormen van toetsing en de keuze van leeractiviteiten en -ervaringen.

Figuur 1. Constructieve harmonie[3]

Vervolgens kent programmatisch toetsen zes uitgangspunten (Baartman en anderen, 2020; p. 17):

1. De ontwikkeling van de student wordt inzichtelijk gemaakt door een mix aan datapunten.

We noemen dit ook wel de ‘confetti-aanpak’. Om tot valide beslissingen te nemen gaan we niet meer uit van losse toetsen die bijvoorbeeld afzonderlijk met een voldoende zijn afgesloten. In plaats daarvan kijken we op een rijke manier naar de ontwikkeling van de student door op meerdere momenten, in verschillende situaties, bewijsmateriaal te verzamelen over het leerproces en uiteindelijk transfer.

2. Elk datapunt is feedbackgericht en kent geen zak/slaagbeslissing.

Eén confettimoment heeft nooit een zwaarwegende consequentie, maar wordt gebruikt om de student te voorzien van een geïnformeerde vervolgactie in het proces van formatief handelen.

3. De leeropbrengsten vormen de ruggengraat van het toetsprogramma.

Om te weten waar je uiteindelijk een beslissing over wilt nemen (Wat weet en kan de student nu zelfstandig?), is het belangrijk de beoogde opbrengsten te verhelderen. Verwachte opbrengsten geven richting aan het op te leveren bewijsmateriaal en de keuze aan leeractiviteiten en -ervaringen.

4. Er is een constante dialoog over het gebruik van feedback voor zelfsturing.

Leren is een interactief proces waarbij het toewerken naar zelfstandigheid ook vraagt om ontwikkeling van zelfregulatievaardigheden (bijvoorbeeld feedbackgeletterdheid).

5. Het aantal datapunten en de zwaarte van de beslissing zijn proportioneel aan elkaar gerelateerd.

Wat je precies van een student verwacht zelfstandig te laten zien, horen etc. na een bepaalde periode bepaalt de rijkheid van data de je nodig hebt om daarover uiteindelijk een valide uitspraak te kunnen doen. Wil je bepalen of studenten zelfstandig een bepaalde beroepstaak of – handeling uit te voeren? Bepaal dan wat je nodig hebt om die uitspraak te kunnen doen.

6.De zwaarte van de beslissing is leidend voor de benodigde beoordelaarsexpertise.

Niet alleen de kwaliteit van het bewijsmateriaal is belangrijk om tot valide beslissingen te komen, minstens zo belangrijk zijn de ogen en oren van de beoordelaars. Wie heb je nodig om het bewijsmateriaal goed te kunnen analyseren, interpreteren en te vertalen naar een beslissing? Welke inhoudelijke expertise en beoordelaarsexpertise is nodig?

 

Klinkt prachtig! Maar…… de praktijk blijkt een uitdaging

De zes uitgangpunten ogen sterk en veelbelovend. Bij een geslaagde implementatie zullen er niet alleen veel zorgvuldigere beslissingen worden genomen over beoogde leeruitkomsten dan in een gefragmenteerd toetsprogramma, maar krijgen studenten vooral meer tijd en ruimte voor hun leerproces. Toch blijkt de vertaling van deze uitgangspunten naar de dagelijkse praktijk nog een uitdaging. Dit zien en horen we ook terug bij opleidingen die met programmatische toetsen aan de slag zijn of willen, en waarbij er soms grote principiële vragen leven bij docenten, en studenten niet altijd even enthousiast zijn. Naar ons idee heeft dat te maken met de volgende problemen: 1) een geslaagde implementatie van programmatisch toetsen vergt veel van een opleidingsteam (wellicht te veel) en 2) beoordelen en leren loopt teveel door elkaar, waardoor het leerproces in de verdrukking komt omdat studenten toch voelen dat ze altijd moeten presteren.

1. Programmatisch toetsen vereist misschien wel te veel kennis en vaardigheden van docenten

Programmatisch toetsen kent een aantal onderliggende evidence-informed principes. Een eerste belangrijke randvoorwaarde voor implementatie is een stevige gezamenlijke kennisbasis over deze principes. Hoe steviger deze kennisbasis is, hoe krachtiger de keuzes worden in de praktische uitvoering. Voor programmatisch toetsen betreft dit kennis over leren, zelfsturing, formatief handelen, feedback, toetsing en curriculumontwerp. Dit zijn grote en complexe concepten, waar ook opleidingsteams de tijd en rust voor nodig hebben om deze eigen te maken. Bij het gebrek aan een gezamenlijke kennisbasis bestaat het risico dat programmatisch toetsen te instrumenteel wordt geïmplementeerd en studenten, docenten en andere relevante betrokkenen in verwarring raken. Het gevaar is dat men weer teruggrijpt op bekende routines en systemen. Het is belangrijk dat docenten voor de start van de implementatie over voldoende competenties beschikken op het vlak van leren, zelfsturing, formatief handelen, feedback, toetsing en curriculumontwerp. Ook moeten deze competenties daarna geborgd worden (bijv. bij de instroom van nieuwe collega’s) om de uitvoering overeind te houden. Een reële vraag is of dit niet een te zware, en daarmee in feite een onhaalbare, preconditie is.

2. Risico is aanwezig dat niet alles leren, maar beoordeling wordt.

Programmatisch toetsen gaat uit van een beoordeling waarin ook de ontwikkeling van de student als beoordelingscriterium wordt meegenomen. Bij Toetsrevolutie hebben we ervoor gekozen om een heldere scheiding te maken tussen kennis over didactiek en kennis over toetsing. We noemen dit respectievelijk het blauwe en het rode deel (zie onze advance organiser).

In de didactiek (blauw) wordt bij studenten informatie verzameld, geïnterpreteerd en gebruikt voor formatieve beslissingen (het moeten vallen en weer opstaan; de hobbelige weg naar zelfstandigheid). Actiegerichte en specifieke feedback van hoge kwaliteit speekt een belangrijke rol in dit proces. Dit moet door de student als veilig worden ervaren, het gaat immers nog om het leerproces naar zelfstandigheid toe.

In de toetsing (rood) wordt bij studenten informatie verzameld, geïnterpreteerd en gebruikt voor summatieve beslissingen: het moment dat we bepalen of er geleerd is (transfer; zelfstandigheid, het feestmoment in de openbaarheid, denk aan afzwemmen).

Waar we voor moeten waken met het implementeren van programmatisch toetsen is dat de strategieën die worden ingezet om de student in het leerproces verder te helpen (blauw) niet een indirecte beoordeling worden (rood) door bijvoorbeeld feedback mee te nemen in zwaarwegende beslissingen. Hierdoor bestaat de kans dat de student het gevoel krijgt toch voortdurend in lichte mate beoordeeld te worden: blauw en rood vermengen zich tot paars. Het nadeel hiervan is dat dit een negatieve impact kan hebben op het leerproces. Voor formatief handelen is het van belang dat studenten het idee hebben dat ze fouten mogen maken, zonder daarop afgerekend te worden. Bij programmatisch toetsen hangt dat risico altijd in de lucht, want een zwaarwegende beslissing gaat tenslotte over al je prestaties. Precies dit zorgt ook voor ongemak, of een gevoel van onduidelijkheid bij studenten en docenten, maar ook bij examencommissies.

 

Wat kan de buikpijn wegnemen?

Wij denken dat het belangrijk is om helder te hebben welke data voor welke doeleinden wordt gebruikt. In onze ogen zouden datapunten ten behoeve van het aan- of bijsturen van het leerproces (de formatieve beslissingen) niet low-stake, maar no-stake moeten zijn en uitsluitend benut mogen worden voor een goede vervolgstap in het leerproces. Deze datapunten zijn van de student en daarmee niet openbaar. Ze zouden goed passen in bijvoorbeeld een leerportfolio of ander instrument om feedback te onthouden. Maar bij voorkeur worden deze datapunten niet geadministreerd maar verankerd in het dagelijkse onderwijs. Zo zorg je dat ze niet toch onbewust en onbedoeld een summatief karakter krijgen. Datapunten bedoeld om te komen tot goede summatieve (zwaarwegende) beslissingen en bewijs voor begrip kunnen dan geschikt zijn voor bijvoorbeeld een beoordelingsportfolio. Voorbeelden zijn deeltoetsen- of opdrachten die meetellen voor het eindresultaat en blijk geven van een bepaald mate van zelfstandigheid. Deze datapunten zijn daarmee geschikt om openbaar te maken aan bijvoorbeeld een beoordelingscommissie. Maak echter de tijdsintervallen tussen deze datapunten niet te groot. Het motiveert zeker eerstejaarsstudenten iets te kunnen afronden en succes te ervaren. Hoe langer je daarmee wacht, hoe groter de kans op demotivatie (en daarmee mogelijk uitval en vertraging).

Door op deze wijze de datapunten voor het leerproces te scheiden van de datapunten voor de beoordeling, voorkomen we niet alleen overvolle portfolio’s, maar vooral zuiverheid en organiseerbaarheid in de beoordelingsprocedure, transparantie vooraf voor alle betrokkenen en helderheid in ieders rol en verantwoordelijkheid.

 

Tot slot

In deze blog hebben we geschetst wat programmatisch toetsen is en twee belangrijke bezwaren benoemd: de (te) hoge eisen waaraan docenten moeten voldoen en het risico dat leren wordt vermengd met beoordeling.

Veel van de problemen waar programmatisch toetsen een antwoord voor wil bieden zijn ook op een andere manier op te lossen. Constructieve afstemming is ook op een minder ingrijpende manier te bereiken: door een onderwijsontwerp te maken waarin doelen, toetsing en onderwijsactiviteiten (waaronder formatief handelen) op elkaar zijn afgestemd worden al veel problemen opgelost, ook binnen een bestaand onderwijsconcept. Bovendien kan er in een dergelijke opzet iteratief worden gewerkt naar een hogere kwaliteit van onderwijs en bijbehorende competenties van docenten, in plaats van dat er eerst een aanzienlijk competentieniveau aanwezig moet zijn voordat de implementatie een kans van slagen kan hebben.

Uiteraard staan de ontwikkelingen rond programmatisch toetsen niet stil. We dragen de onderliggende principes en ambities  – zorgvuldige beoordeling en ruimte voor het leerproces – een warm hart toe. Maar in de praktijk zien we dat opleidingen programmatisch toetsen te snel en te groots omarmen als de oplossing voor alle problemen en dat gaat, met de beste intenties, vaak mis. Met deze blog hopen we opleidingen daarin wat bescherming te bieden.

Literatuur

  1. Soderstrom, N. C., & Bjork, R. A. (2015). Learning versus performance: An integrative review. Perspectives on Psychological Science, 10(2) 176-199.
  2. Baartman, L., Van Schilt-Mol, T., & Van der Vleuten, C. (2020). Programmatisch toetsen: Voorbeelden en ervaringen uit de praktijk. Amsterdam: Boom Uitgevers.
  3. Biggs, J. (1996). Enhancing teaching through constructive alignment. Higher Education, 32, 347-364.

 

Auteur

  • Dominique Sluijsmans is onderwijskundige met een specialisatie op het gebied van toetsing. Ze schreef diverse succesvolle en invloedrijke boeken zoals Wijze Lessen en Toetsrevolutie.

  • Valentina Devid is docent geschiedenis & levensbeschouwing. Ze is ervaringsexpert op het gebied van formatief handelen en een veelgevraagd spreker over dit onderwerp. Samen met René Kneyber en Flemming van de Graaf maakt ze de LLEARN-podcast.

  • René Kneyber is voormalig docent wiskunde. Hij schreef en vertaalde meer dan vijftien boeken, waaronder Toetsrevolutie. Sinds 2015 is hij kroonlid van de Onderwijsraad. Samen met Valentina Devid en Flemming van de Graaf maakt hij de LLEARN-podcast