De meerkeuzevraag is het favoriete vraagtype van veel onderwijs- en exameninstellingen. Het maken van dergelijke vragen is niet eenvoudig, vooral het komen tot goede afleiders (foute antwoordalternatieven) kan nogal een uitdaging zijn. Je zou daarmee kunnen pleiten voor minder antwoordalternatieven, maar daarmee vergroot je de raadkans. Wat is het optimale aantal antwoordalternatieven?

Een meerkeuzevraag kent veel voordelen. Dit vraagtype leent zich voor het toetsen van zowel lagere als hogere orde denkvaardigheden. Het zijn gesloten vragen, dus de beoordeling is behoorlijk objectief. Omdat ze snel te beantwoorden zijn, kun je veel van deze vragen in je toets plaatsen, zodat je een groot deel van de leerstof kunt toetsen. Maar dit vraagtype kent ook een groot nadeel: hij is niet eenvoudig te ontwikkelen. Vooral het bedenken van plausibele afleiders is een enorme uitdaging. Daarom wordt er al jaren onderzoek gedaan naar het optimale aantal antwoordalternatieven (het eerste onderzoek hierover stamt uit 1919).

Raadkans

Vanuit verschillende gedachten kun je deze vraag beantwoorden. Als je kijkt naar de raadkans, dan zou je kunnen pleiten voor zoveel mogelijk alternatieven. Daarmee verklein je de raadkans. Een vijfkeuzevraag heeft 20% raadkans ten opzichte van een driekeuzevraag met 33% raadkans. Een hoge raadkans zorgt ervoor dat je meer vragen nodig hebt, om te meten wat je wilt meten bij de kandidaat. Je houdt dan rekening met de kans dat de kandidaat het antwoord juist gokt, waarbij dit dus niet betekent dat hij deze kennis ook daadwerkelijk bezit.

Afleiders bedenken

De ontwikkeling van vragen met meer dan drie alternatieven is een stuk ingewikkelder, waardoor de kans bestaat dat je alternatieven toevoegt die niet geloofwaardig zijn als antwoord en die zodoende makkelijk worden weggestreept door de kandidaat. Dan kost het de kandidaat alleen meer leestijd en levert het weinig extra inzicht op. Technisch gezien houd je dan rekening met een lagere raadkans, terwijl de praktijk anders laat zien. Wanneer kandidaten één van de 4 antwoordalternatieven nooit kiest, maar je houdt in de normering rekening met een raadkans van 25%, dan heeft dat een negatief effect op de validiteit van je beslissing. Je hebt de lat dan misschien wel te laag gelegd.

Driekeuzevraag

Onderzoek (Rodriguez, 2005) laat zien dat drie alternatieven voor de meeste vakgebieden het ideale aantal alternatieven is. Rodriguez deed in 2005 een meta-analyse van 80 jaar aan onderzoek over het aantal alternatieven en concludeerde dat het terugbrengen van het aantal alternatieven over het algemeen de betrouwbaarheid van de toetsscores verlaagde, met uitzondering van één situatie. Wanneer het aantal antwoordalternatieven werd teruggebracht van 4 naar 3 alternatieven, steeg de betrouwbaarheid van de toets.

In hetzelfde onderzoek concludeerde Rodriguez dat de validiteit gelijk bleef wanneer het aantal antwoordalternatieven werd verlaagd.

De driekeuzevraag heeft een aantal voordelen, zonder daarmee de effectiviteit van de toets aan te tasten. Eén voordeel is je de kans op slechte afleiders verminderd. Slechte afleiders in vragen heeft invloed op de validiteit. Daarnaast laat de driekeuzevraag geen grote veranderingen zien in de psychometrische gegevens, als je deze vergelijkt met een vierkeuze- of vijfkeuzevraag. De statistieken laten zien dat de driekeuzevraag de p-waarde verlaagt (moeilijkheid). Dat is logisch, omdat de raadkans hoger is. Maar daarnaast verhoogt de driekeuzevraag de rit- en rir-waarde (het discriminerend vermogen) en daarmee ook de betrouwbaarheid van de toets. Een ander voordeel is dat een driekeuzevraag minder tijd kost om te beantwoorden, daarmee zou je theoretisch gezien meer vragen kunnen opnemen in de toets. Dat zorgt voor een bredere toetsing van de leerstof.

Op donderdag 14 maart aanstaande is Paragin aanwezig bij het NVE-Examencongres. We verzorgen daar een workshop over het gebruik van verschillende vraagtypen, waar de meerkeuzevraag uiteraard ook een grote rol speelt. Wil je meedenken over de voor- en nadelen van vraagtypen, kom dan naar onze workshop!

 


Feedback is één van de meest krachtige invloeden op het leren van mensen, maar de impact van feedback kan zowel positief als negatief zijn. Hoewel de bedoeling van docenten bij het geven van feedback vaak heel goed is, is de feedback inhoudelijk gezien niet altijd even effectief. Zo blijkt uit onderzoek dat docenten jongens vaker feedback geven die gericht is op een gebrek aan inzet (je doet het niet), terwijl de feedback aan meisjes vaker is gericht op een gebrek aan vaardigheid (je kunt het niet). Natuurlijk niet bewust, maar wel een valkuil waar we liever niet in stappen. Zeker omdat het nadelige gevolgen heeft voor de motivatie en mogelijkheden van een leerling. Zorgvuldig feedback geven in het onderwijs is dus van groot belang.

In 1975 deden Carol Dweck en collega’s al onderzoek naar het effect van ‘gebrek aan inzet’ versus ‘het gebrek aan vaardigheid’. Ze kwamen erachter dat wanneer meisjes uit groep 6 zakken voor een taak, de oorzaak werd gezocht in een gebrek aan vaardigheid. Daarna scoorden deze meisjes ook slecht op een cognitieve toets over dezelfde inhoud. Daaruit bleek dat feedback die een gebrek aan vaardigheid beschrijft, invloed heeft op de prestatie in de volgende taak. Voor jongens uit dezelfde groep was dat anders. Hun falen werd vooral geweten aan een gebrek aan inzet. Jongens scoorden daarmee op de volgende taak (de cognitieve toets) beter dan de meisjes.

Dit beeld kwam overeen met de natuurlijke kritiek van docenten op meisjes en jongens. Daar waar meisjes iets niet kunnen, werd de oorzaak vaker gezocht in een gebrek aan vaardigheid, waarmee men tot de conclusie kwam dat de leerling de taak niet aan kon. Van de jongens werd vaker gedacht dat ze er te weinig energie in hadden gestoken. Waardoor de jongens met iets meer inzet toch vertrouwen kregen in het aanpakken van de volgende taak en hier ook beter in presteerden. Dit onderzoek en verder onderzoek van Carol Dweck heeft geleid tot haar theorie over de fixed en growth mindset. Hier kun je een lezing van Carol volgen over deze theorie.

Feedback geven, luistert dus nauw. Er is geen docent die graag het beeld mee geeft dat een leerling een gebrek aan vaardigheid laat zien en toch gebeurt dat. Feedback in het onderwijs is vooral bedoeld om ‘de verschillen tussen de huidige situatie en de doelstellingen te verkleinen’. Onderzoek van Hattie & Timperley (2007) laat zien dat goede feedback leerlingen bewust maakt van hun ontwikkelingen en vorderingen die gemaakt zijn richting het gestelde doel. Om dat voor elkaar te krijgen bieden Hattie & Timperley het volgende feedback-model:

Bron: Hattie, J., & Timperley, H. (2007). The power of feedback. Review of educational research, 77(1), 81-112.

Om een leerling bewust te maken van de ontwikkelingen en vorderingen die zijn gemaakt richting het gestelde doel, moeten docenten drie vragen centraal stellen:

  1. Feed Up: waar ga je naartoe, wat is jouw doel of welke resultaten wil je bereiken?
  2. Feed Back: wat heb je gedaan, hoe heb je het tot nu toe aangepakt?
  3. Feed Forward: wat is je volgende stap, wat ga je verder doen om het doel te bereiken?

In deze video worden de resultaten uit het onderzoek van Hattie & Timperley in het kort nog eens uitgelegd.

Er bestaan volgens het onderzoek van Hattie & Timperley vier niveaus van feedback:

  1. Feedback op de taakuitvoering

“Je hebt 63% juist beantwoord.”

  1. Feedback op het proces

“Kijk nog eens naar deze video en probeer het dan nog een keer.”

  1. Feedback op zelfregulerend werken

“Als je nu terugkijkt op deze taak, wat zorgde ervoor dat het goed ging?”

  1. Feedback op de persoon. Deze feedback wordt niet als effectief gezien.

“Je let niet op.” “Wat ben jij toch een slim kind.” “Zit niet zo te dromen.”  

Feedback op het proces en op het zelfregulerend werken, blijkt het meest effectief te zijn. Feedback op de persoon is minder nuttig, omdat de leerling hier weinig controle over heeft.

Feedback geven is ontzettend belangrijk voor leren en ontwikkelen. Naast het geven van instructie/aanwijzingen is dit de meest invloedrijke interventie die docenten hebben in een klas. Zorgvuldig feedback geven is dus de moeite waard, maar vraagt ook om oefening en reflectie.

Wil je het onderzoek van Hattie & Timperley nalezen? Dat kan hier.


Het gebruik van rubrics bij het beoordelen van opdrachten is populair in ons huidige onderwijs. Een rubric zou de beoordeling van het werk van studenten enorm verbeteren en verrijken, maar hoe zit het eigenlijk met de validiteit? Levert een rubric ook daadwerkelijk een betrouwbaar en valide oordeel op?

Een rubric is een set van beoordelingscriteria, waarmee opdrachten van studenten worden beoordeeld. Een rubric kan zowel holistisch worden gebruikt, als analytisch (of een combinatie van die twee), waarbij in holistische zin de opdracht als geheel wordt beoordeeld en in analytische zin per onderdeel van de opdracht een oordeel wordt gegeven, die samen het eindoordeel bepalen.

Criterium Onvoldoende Matig Voldoende Goed
Kennis en inzicht over de inhoud: het argument Gebrek aan kennis en inzicht over het inhoudsdomein, dat leidt tot een niet-overtuigend argument. Beperkte kennis en inzicht over het inhoudsdomein. Herkenbaar door vage en onduidelijke taal. Geen overtuigend argument. Kennis en inzicht over het grootste deel van het inhoudsdomein. Geeft fragmentarisch een overtuigend argument. Duidelijk kennis en inzicht over het inhoudsdomein. Herkenbaar door duidelijke en concrete taal en complexe ideeën. Sterke, overtuigende en consistente argumenten.

Voorbeeld van beoordelingscriterium uitgewerkt in een rubric

Uit onderzoek blijkt dat beoordelaarsfouten bij het beoordelen van opdrachten helaas veel voorkomen (bijvoorbeeld Gage en Berliner uit 1992). Studenten die een goede schrijfstijl hebben en zich kunnen houden aan de spelling- en grammaticaregels, krijgen hogere cijfers voor hun essays dan studenten die deze vaardigheden niet beheersen. Oók wanneer docenten wordt gevraagd alleen de inhoud te beoordelen. Zelfs interpunctie en fouten in de opmaak van het document blijken een rol te spelen bij de beoordeling van de inhoud. Gage en Berliner (1992) onderzochten de betrouwbaarheid en validiteit van het beoordelen van essays, door een groep van 100 docenten een essay te laten beoordelen, zonder een rubric. Alle docenten beoordeelden hetzelfde essay en scoorden deze op een 100 puntsschaal. Hoewel de docenten dezelfde instructies hadden gekregen, varieerden de cijfers enorm. De scores liepen van 60 tot ruim 90 punten.

De rubric is een instrument dat moet helpen om deze beoordelaarsfouten te voorkomen. Uit onderzoek blijkt ook dat docenten zich zelfverzekerder voelen tijdens het beoordelen, door het gebruik van een rubric (Silvestri & Oescher, 2006). Is dat gevoel dan ook terecht?

Rezaei & Lovorn (2010) deden een poging om deze vraag te beantwoorden, door te kijken naar de vraag of een rubric beoordelaars helpt te voorkomen dat ze teveel aandacht besteden aan de schrijfvaardigheid van de studenten, boven de redeneerkwaliteit, inhoud van de kennis en het logisch denken. Zij deden dit door 326 beoordelaars twee essays te laten beoordelen, eenmaal met en eenmaal zonder rubric. De beoordelaars werden onderverdeeld in 4 groepen. De eerste twee groepen bestonden uit docenten en docenten in-opleiding (71 en 108 personen). De derde en vierde groep waren studenten uit de bedrijfskundige en marketingopleidingen, in de leeftijd van 20 tot 55 jaar (85 en 72 personen).

In het eerste experiment werden groep 1 (docenten) en groep 3 (bedrijfskundigen) gevraagd een essay te beoordelen over de economische globalisatie. Het essay moest daarbij voldoen aan een aantal inhoudelijke eisen en antwoord geven op een specifieke vraag. Essay 1 was bijzonder netjes geschreven, correct qua spelling en grammatica, maar gaf geen antwoord op de gestelde vraag en voldeed daarbij niet aan het belangrijkste criterium.

Groep 2 (docenten) en groep 4 (bedrijfskundigen) kregen een ander essay om te beoordelen, gemaakt met dezelfde opdracht. In dit geval voldeed het essay inhoudelijk aan alle eisen en zou volgens de gegeven rubric hoog moeten scoren. Maar de schrijfvaardigheid liet wat te wensen over. Er stonden 20 structuur-, spelling- en grammaticafouten in.

In de rubric die de beoordelaars kregen, mocht de schrijfvaardigheid beoordeeld worden met maximaal 10 punten. De andere 90 punten ging over het inhoudelijke deel van de opdracht.

De gedachte achter dit experiment was dat de beoordeling met de rubric vermoedelijk tot een betere beslissing zou leiden. Dat het inhoudelijk goede essay daarmee hoger zou scoren, dan het inhoudelijk slechte essay. Helaas bleek het tegendeel waar. Daarnaast zou je verwachten dat het gebruik van de rubric het bereik en de variantie van de gegeven scores zou verminderen, maar ook dat werd niet bereikt. De variantie van de scores steeg zelfs aanzienlijk bij het gebruik van de rubric.
Daarnaast werd duidelijk dat de beoordelaars enorm beïnvloed werden door de schrijfvaardigheid van de student. Het goede essay werd door veel beoordelaars lager beoordeeld dan het slechte essay. Bij navraag gaven die beoordelaars aan, dat ze vonden dat de student in het geval van het slechte essay niet de moeite had genomen om er echt aandacht aan te besteden en de spelling te checken. Hoewel taalvaardigheid maar 10 van de 100 punten had mogen bepalen, speelde het in dit experiment dus toch een grotere rol. Terwijl de rubric daar heel duidelijk over was.
Het foute essay ontving in alle gevallen een resultaat ‘geslaagd’, zélfs op het onderdeel dat ging over het beantwoorden van de gestelde vraag (die door deze student niet werd beantwoord). Ook al proberen beoordelaars zich dus te houden aan de rubric, zij werden toch hevig beïnvloed door de intuïtieve indruk van de tekst wanneer ze deze voor het eerst lazen.

Dat zou betekenen dat het gebruik van een rubric toch niet doet wat het beloofd, maar het niet meer gebruiken van een rubric maakt het niet beter. Er zijn onderzoekers (zoals bijvoorbeeld Elliot) die aangeven dat men zich daarom steeds moet beseffen, dat zelfs met een rubric beoordelaarsfouten voorkomen en zij pleiten voor een portfolio-assessment in plaats van enkele momentopnames. Daarnaast is het ontwerp en vooral het trainen van beoordelaars in het gebruik van een rubric heel effectief gebleken. Het trainen van de beoordelaars is in dit experiment minimaal gedaan. Dat kan een grote rol hebben gespeeld in de uitkomst.

 

Meer lezen over deze en andere onderzoeken:

Rezaei, A.R., & Lovorn, M. (2010). Reliability and validity of rubrics for assessment through writing.

Gage, N. L., & Berliner, D. C. (1992). Educational psychology. Wentzville, MO: Borgasorus Books.

Silvestri, L., & Oescher, J. (2006). Using rubrics to increase the reliability of assessment in health classes. International. Electronic Journal of Health Education, 9, 25–30.