RemindoToets kent maar liefst 12 verschillende vraagtypen. Toch domineert vooral één vraagtype in de itembanken van onze klanten: de meerkeuzevraag. De keuze voor dit vraagtype is logisch vanuit de historie rondom toetsen en dan vooral de papieren toets-gewoonten. Waar men al wel de overstap heeft gemaakt op het digitaliseren van het toetsproces, is het overstappen naar het gebruik van verschillende vraagtypen niet zo snel gemaakt. Waarom is het slim om dit wel te overwegen? En welk vraagtype past dan het best bij de toetscriteria?

Op basis van een vergelijking van de drie grootste itembanken in RemindoToets (in totaal 276.760 vragen) zien we dat maar liefst 69% van de vragen een meerkeuzevraag is. De invulvraag (15%) en de open vraag (14%) staan op de tweede en derde plaats in de ranglijst.

Verdeling vraagtypen uit de drie grootste itembanken (totaal: 276.760 vragen). In dit overzicht worden zowel de ‘een-uit-meervraag’ en de ‘meer-uit-meervraag’ als meerkeuzevraag beschouwd en zowel de uploadvraag als de samengestelde vraag zijn achterwege gelaten.

Wanneer een organisatie de toetsen afneemt op papier is de keuze voor een meerkeuzevraag heel begrijpelijk. We toetsen veel en bij grotere aantallen kandidaten is het heel belangrijk dat er snel beoordeeld kan worden. Daar leent een meerkeuzevraag zich uitstekend voor.

Wanneer er wordt overgegaan op digitale toetsing komt er een heel spectrum aan vraagtypen ter beschikking. Dan is het kiezen voor een meerkeuzevraag een stuk minder logisch. Mede omdat het beoordelen digitaal ook bij andere (gesloten) vraagtypen geautomatiseerd gebeurt. De belangrijkste bezwaren die we horen als het gaat om het eventueel overstappen naar een ander vraagtype zijn:

  1. Het wordt voor de kandidaat heel verwarrend als we meerdere vraagtypen gaan gebruiken in één toets.
  2. We nemen al jaren deze toets af in deze vorm (bijvoorbeeld 60 meerkeuzevragen). We moeten kandidaten wel toetsen blijven aanbieden van dezelfde moeilijkheidsgraad.

In 2009 deden Draaijer en Van den Bos onderzoek naar het gebruik van verschillende vraagtypen. Dit onderzoek werd uitgevoerd onder derdejaars studenten van de opleiding ‘Voeding en Spijsvertering’. In het onderzoek werd de studenten een examen aangeboden met daarin de gebruikelijke 56 meerkeuzevragen en daarbij 22 vragen van een ander vraagtype. Hiervoor werden de matrixvraag, de drag & dropvraag en de meervoudig-juistvraag gebruikt. Daarna werden de psychometrische gegevens van de toetsresultaten bekeken en kregen de kandidaten nog een aantal vragen over hun ervaring met dit nieuwe examen.

De kandidaten reageerden verrassend enthousiast over de variatie in vraagtypen. Ze gaven daarbij aan: “Leuk en uitdagend, ik werd gedwongen beter na te denken.”

De psychometrische gegevens gaven daarnaast ook een positief beeld van de ‘alternatieve’ vraagtypen.

  • Een toets die zou bestaan uit alleen de 56 meerkeuzevragen gaf een gemiddelde rit-waarde van 0,21.
  • Een toets die zou bestaan uit alleen ‘alternatieve’ vraagtypen gaf een gemiddelde rit-waarde van 0,34.

Daarmee maakt de toets met alternatieve vraagtypen dus een beter onderscheid tussen de kandidaten die de leerstof wel, en kandidaten die de leerstof niet beheersen.

Daarnaast had het gebruik van de ‘alternatieve’ vraagtypen effect op het slagingspercentage.

  • Voor een toets met alleen de meerkeuzevragen zou 61% van de kandidaten zijn geslaagd.
  • Voor een toets met alleen de ‘alternatieve’ vraagtypen zou 77% van de kandidaten zijn geslaagd.

Wanneer we terugkijken naar de veelgehoorde bezwaren van het overstappen naar een ander vraagtype, laat dit onderzoek zien dat het voor kandidaten helemaal niet zo verwarrend heeft gewerkt.

Over de moeilijkheidsgraad valt er op basis van dit onderzoek geen duidelijke conclusie te trekken. We zien dat er meer mensen slagen met de alternatieve vraagtypen. Dat kan komen omdat het examen hierdoor makkelijker is geworden. Maar aannemelijker is het dat we met behulp van de alternatieve vraagtypen beter hebben kunnen meten wat we wilden meten, de toetsanalyse geeft namelijk betere resultaten.

Dit onderzoek geeft dus aan dat de aarzeling met betrekking tot de verschillende vraagtypen niet nodig is. Het levert juist veel voordelen op als het gaat om de betrouwbaarheid en validiteit van de beslissingen die je neemt op basis van de toetsresultaten.

Hoe pak je dit dan aan?

Het kiezen van een passend vraagtype is net zo belangrijk als andere onderdelen van de toetsontwikkeling. Je zult merken dat door het juiste vraagtype in te zetten, de vraag beter geformuleerd kan worden en echt gemeten kan worden wat je wilde meten.

Om je hierbij te ondersteunen hebben we een hulpdocument geschreven. Daarop vind je een overzicht van werkwoorden. Op basis van deze werkwoorden is aangegeven welk vraagtype hier logischerwijs bij zou passen. Je kunt dit document leggen naast je toetscriteria en voorafgaand aan het ontwikkelen van het examen al bedenken: welke vraagtypen ga ik gebruiken?

Naast het kiezen van een vraagtype dat past bij je toetscriterium zijn er ook andere factoren van belang die samenhangen met het vraagtype dat je kiest. Zo hebben we niet voor niets jarenlang allerlei toetscriteria proberen te toetsen met meerkeuzevragen. Je wilt natuurlijk een betrouwbare en valide oordeel vellen over je kandidaten, maar het is heel begrijpelijk om ook aan bijvoorbeeld de organisatiefactoren te denken. Kun je het wel bolwerken om meer open vragen te stellen?

Hier bieden we je een checklist aan waarop een aantal van die factoren beschreven staan. Als je kijkt naar de meerkeuzevraag als vraagtype zie je bijvoorbeeld:

  • Dat hij meerdere cognitieve niveaus kan toetsen (hoewel ze vaker gericht zijn op lagere orde denkvaardigheden).
  • Dat hij door kandidaten snel te beantwoorden is, zodat je veel vragen kunt stellen in één examen en daarmee een heel groot deel van je leerstofdomein kunt bevragen.
  • Dat hij lastig is om te ontwikkelen. Goede afleiders bedenken is een hele klus en lukt niet altijd.
  • Dat kandidaten een raadkans hebben op deze vraag, waarmee een deel van de scoring betekenisloos wordt.
  • Je kunt er niet bij bluffen, zoals je dat wel kan in open vragen. Bluffen houdt in dat kandidaten niet precies het antwoord geven op de vraag, maar wel veel andere informatie waardoor je geneigd bent als beoordelaar om (enkele) punten toe te kennen.
  • Hij biedt wat informatie over denkfouten die kandidaten maken. Je kunt bijvoorbeeld zien voor welke afleider vaak is gekozen. Als je dit soort informatie hebt, kun je daar je onderwijs op verbeteren.
  • De scoring van dit vraagtype wordt volledig objectief (namelijk geautomatiseerd) gedaan.

Zo zien we dat het helemaal niet vreemd is dat er vaak voor een meerkeuzevraag wordt gekozen. Andere vraagtypen kennen ook hun voor- en nadelen. De uitdaging ligt erin om een vraagtype te kiezen dat recht doet aan de leerstof en de toetscriteria die getoetst moeten worden.

Voel je vrij om verschillende vraagtypen te gebruiken. Veel succes!


Twee weken na de prijsuitreiking waar hij de Publieksprijs voor Examens won, trainde Harry Molkenboer op het kantoor van Paragin vol enthousiasme RemindoToets-gebruikers in het juist interpreteren van de toets- en itemanalyse en het bepalen van cesuur.

Tijdens de training werd, aan de hand van concrete voorbeelden uit RemindoToets, uitleg gegeven over hoe deze waarden geïnterpreteerd kunnen worden en wat de conclusie kan zijn over de kwaliteit van de vraag en de toets. Deelnemers werden uitgedaagd om beslissingen te nemen in verschillende casuïstiek.

Het boek van Harry ‘180 gevalideerde richtlijnen voor toetsen‘ was een welkome handleiding voor deze toetsanalyse. Aan de hand van voorbeelden werd stil gestaan bij de richtlijnen voor de betreffende waarde, zoals de p- en rir-waarde. Daarbij werd steeds nuance aangebracht waarbij duidelijk werd dat ook de toetsanalyse geen zwart-wit gebied betreft, maar bestaat uit verschillende grijstinten waar goed over nagedacht moet worden. Harry gaf inzage in het effect van een meetfout in de toets. Met hoeveel zekerheid kunnen we zeggen dat een oordeel over een score van een kandidaat passend is?

Deze vraag heeft ook te maken met het bepalen van cesuur. Daarbij heeft Harry verschillende cesuurmethoden uitgelegd en hierbij de voor- en nadelen besproken.

Enkele reacties van de deelnemers waren:

“Leuk om echt te oefenen met echte voorbeelden!”

“Ik wist vrijwel niets van toets- en itemanalyse en nu voel ik me een halve onderwijskundige!”

“Ik ben blij dat ik erbij was!”

Wij bedanken Harry hartelijk voor zijn enorme inzet en de enthousiaste manier waarmee hij het gecompliceerde eenvoudig en met humor weet te brengen.


Processen zijn van grote invloed op het reilen en zeilen binnen organisaties. Het is dus niet zo vreemd dat veel organisaties de behoefte hebben om hun processen te verbeteren of aan te scherpen. Hoe beter het proces, hoe efficiënter en effectiever gewerkt kan worden. Procesverbetering wordt vaak samen genoemd met digitalisering. Alsof de organisatie door het inbedden van een digitaal systeem automatisch de processen verbetert. Helaas is dat meestal niet het geval. Hoe kun je dan wel een succes maken van procesdigitalisering? 

Door het plaatsen van een bestaand proces in een digitaal systeem, plaats je eigenlijk iets ouds in een nieuw jasje. Dit kan uitstekend werken bij een oude hit die opnieuw op een nieuwe, moderne manier wordt uitgebracht. In het geval van processen en systemen op de werkvloer kunnen mensen ‘veranderingsmoe’ worden. Soms is het de zoveelste verandering op het werk en zien mensen het nut niet in van de verandering. Het is belangrijk dat digitalisering geen doel op zich is. Digitalisering kun je beter zien als een middel om een doel te bereiken. Het middel waarmee het proces wordt doorlopen verandert, maar het proces zelf niet. Is het proces niet passend of draagt het niet bij aan de effectiviteit of efficiëntie van de werkzaamheden, dan moet er dus eerst wat veranderen aan het proces.

Breng het proces eerst globaal in kaart

Het is aan te raden om eerst helder te hebben hoe het huidige proces er uit ziet. Breng samen met alle betrokkenen goed in kaart wat de exacte stappen zijn die nu doorlopen worden. Van welke persoon/personen wordt tijdens welke stap iets verwacht? Stel eerst globaal het proces op van a tot z. Je zult er dan achter komen dat een proces vaak niet op zichzelf staat, maar deel is van meerdere processen. Een inschrijving van een nieuwe klant kan op zichzelf een proces zijn met meerdere stappen, maar kan ook deel zijn van een groter proces dat loopt van inschrijving tot aan uitschrijving. Om deze processen in kaart te brengen, zou je bijvoorbeeld flowcharts kunnen gebruiken. Om het totaalplaatje niet uit het oog te verliezen, kun je het beste voorkomen dat iemand direct in detail treedt. Bijvoorbeeld de specifieke vragen die aan een klant worden gesteld tijdens de inschrijvingsprocedure, kun je het beste pas beschrijven nadat het gehele proces globaal is opgesteld.

Verbeter het proces

Vervolgens kun je als organisatie met de betrokkenen van het proces nadenken over de gewenste situatie. De directe betrokkenen weten vaak het beste waar verbetering te halen valt. Waar lopen ze tegenaan? Wat zijn onnodige stappen in het proces? Wat zijn hun behoeften? Hoe zouden ze het zelf anders zien? Op basis van deze input kun je als organisatie processen verbeteren naar de gewenste situatie. Ook creëer je op deze manier draagvlak voor het toepassen van een vernieuwd proces.

Digitalisering

Daarna komt de digitalisering pas in beeld. Paragin denkt hierover graag met je mee. Samen zoeken we naar een passende software-oplossing en evalueren we gezamenlijk of de software aansluit bij de (toekomstige) wensen en ontwikkelingen.

Het is belangrijk dat software blijft aansluiten bij een gewenst organisatieproces. Wanneer je als organisatie de behoeften van de betrokkenen continu meeneemt in procesverbetering en hiermee (meer) draagvlak creëert voor het gewenste proces, is de stap naar een passende software-oplossing om dit proces te faciliteren klein. Grote kans dat de gebruikers de software als een uitkomst voor het geoptimaliseerde proces gaan ervaren, in plaats van als een struikelblok.


De meerkeuzevraag is het favoriete vraagtype van veel onderwijs- en exameninstellingen. Het maken van dergelijke vragen is niet eenvoudig, vooral het komen tot goede afleiders (foute antwoordalternatieven) kan nogal een uitdaging zijn. Je zou daarmee kunnen pleiten voor minder antwoordalternatieven, maar daarmee vergroot je de raadkans. Wat is het optimale aantal antwoordalternatieven?

Een meerkeuzevraag kent veel voordelen. Dit vraagtype leent zich voor het toetsen van zowel lagere als hogere orde denkvaardigheden. Het zijn gesloten vragen, dus de beoordeling is behoorlijk objectief. Omdat ze snel te beantwoorden zijn, kun je veel van deze vragen in je toets plaatsen, zodat je een groot deel van de leerstof kunt toetsen. Maar dit vraagtype kent ook een groot nadeel: hij is niet eenvoudig te ontwikkelen. Vooral het bedenken van plausibele afleiders is een enorme uitdaging. Daarom wordt er al jaren onderzoek gedaan naar het optimale aantal antwoordalternatieven (het eerste onderzoek hierover stamt uit 1919).

Raadkans

Vanuit verschillende gedachten kun je deze vraag beantwoorden. Als je kijkt naar de raadkans, dan zou je kunnen pleiten voor zoveel mogelijk alternatieven. Daarmee verklein je de raadkans. Een vijfkeuzevraag heeft 20% raadkans ten opzichte van een driekeuzevraag met 33% raadkans. Een hoge raadkans zorgt ervoor dat je meer vragen nodig hebt, om te meten wat je wilt meten bij de kandidaat. Je houdt dan rekening met de kans dat de kandidaat het antwoord juist gokt, waarbij dit dus niet betekent dat hij deze kennis ook daadwerkelijk bezit.

Afleiders bedenken

De ontwikkeling van vragen met meer dan drie alternatieven is een stuk ingewikkelder, waardoor de kans bestaat dat je alternatieven toevoegt die niet geloofwaardig zijn als antwoord en die zodoende makkelijk worden weggestreept door de kandidaat. Dan kost het de kandidaat alleen meer leestijd en levert het weinig extra inzicht op. Technisch gezien houd je dan rekening met een lagere raadkans, terwijl de praktijk anders laat zien. Wanneer kandidaten één van de 4 antwoordalternatieven nooit kiest, maar je houdt in de normering rekening met een raadkans van 25%, dan heeft dat een negatief effect op de validiteit van je beslissing. Je hebt de lat dan misschien wel te laag gelegd.

Driekeuzevraag

Onderzoek (Rodriguez, 2005) laat zien dat drie alternatieven voor de meeste vakgebieden het ideale aantal alternatieven is. Rodriguez deed in 2005 een meta-analyse van 80 jaar aan onderzoek over het aantal alternatieven en concludeerde dat het terugbrengen van het aantal alternatieven over het algemeen de betrouwbaarheid van de toetsscores verlaagde, met uitzondering van één situatie. Wanneer het aantal antwoordalternatieven werd teruggebracht van 4 naar 3 alternatieven, steeg de betrouwbaarheid van de toets.

In hetzelfde onderzoek concludeerde Rodriguez dat de validiteit gelijk bleef wanneer het aantal antwoordalternatieven werd verlaagd.

De driekeuzevraag heeft een aantal voordelen, zonder daarmee de effectiviteit van de toets aan te tasten. Eén voordeel is je de kans op slechte afleiders verminderd. Slechte afleiders in vragen heeft invloed op de validiteit. Daarnaast laat de driekeuzevraag geen grote veranderingen zien in de psychometrische gegevens, als je deze vergelijkt met een vierkeuze- of vijfkeuzevraag. De statistieken laten zien dat de driekeuzevraag de p-waarde verlaagt (moeilijkheid). Dat is logisch, omdat de raadkans hoger is. Maar daarnaast verhoogt de driekeuzevraag de rit- en rir-waarde (het discriminerend vermogen) en daarmee ook de betrouwbaarheid van de toets. Een ander voordeel is dat een driekeuzevraag minder tijd kost om te beantwoorden, daarmee zou je theoretisch gezien meer vragen kunnen opnemen in de toets. Dat zorgt voor een bredere toetsing van de leerstof.

Op donderdag 14 maart aanstaande is Paragin aanwezig bij het NVE-Examencongres. We verzorgen daar een workshop over het gebruik van verschillende vraagtypen, waar de meerkeuzevraag uiteraard ook een grote rol speelt. Wil je meedenken over de voor- en nadelen van vraagtypen, kom dan naar onze workshop!

 


Feedback is één van de meest krachtige invloeden op het leren van mensen, maar de impact van feedback kan zowel positief als negatief zijn. Hoewel de bedoeling van docenten bij het geven van feedback vaak heel goed is, is de feedback inhoudelijk gezien niet altijd even effectief. Zo blijkt uit onderzoek dat docenten jongens vaker feedback geven die gericht is op een gebrek aan inzet (je doet het niet), terwijl de feedback aan meisjes vaker is gericht op een gebrek aan vaardigheid (je kunt het niet). Natuurlijk niet bewust, maar wel een valkuil waar we liever niet in stappen. Zeker omdat het nadelige gevolgen heeft voor de motivatie en mogelijkheden van een leerling. Zorgvuldig feedback geven in het onderwijs is dus van groot belang.

In 1975 deden Carol Dweck en collega’s al onderzoek naar het effect van ‘gebrek aan inzet’ versus ‘het gebrek aan vaardigheid’. Ze kwamen erachter dat wanneer meisjes uit groep 6 zakken voor een taak, de oorzaak werd gezocht in een gebrek aan vaardigheid. Daarna scoorden deze meisjes ook slecht op een cognitieve toets over dezelfde inhoud. Daaruit bleek dat feedback die een gebrek aan vaardigheid beschrijft, invloed heeft op de prestatie in de volgende taak. Voor jongens uit dezelfde groep was dat anders. Hun falen werd vooral geweten aan een gebrek aan inzet. Jongens scoorden daarmee op de volgende taak (de cognitieve toets) beter dan de meisjes.

Dit beeld kwam overeen met de natuurlijke kritiek van docenten op meisjes en jongens. Daar waar meisjes iets niet kunnen, werd de oorzaak vaker gezocht in een gebrek aan vaardigheid, waarmee men tot de conclusie kwam dat de leerling de taak niet aan kon. Van de jongens werd vaker gedacht dat ze er te weinig energie in hadden gestoken. Waardoor de jongens met iets meer inzet toch vertrouwen kregen in het aanpakken van de volgende taak en hier ook beter in presteerden. Dit onderzoek en verder onderzoek van Carol Dweck heeft geleid tot haar theorie over de fixed en growth mindset. Hier kun je een lezing van Carol volgen over deze theorie.

Feedback geven, luistert dus nauw. Er is geen docent die graag het beeld mee geeft dat een leerling een gebrek aan vaardigheid laat zien en toch gebeurt dat. Feedback in het onderwijs is vooral bedoeld om ‘de verschillen tussen de huidige situatie en de doelstellingen te verkleinen’. Onderzoek van Hattie & Timperley (2007) laat zien dat goede feedback leerlingen bewust maakt van hun ontwikkelingen en vorderingen die gemaakt zijn richting het gestelde doel. Om dat voor elkaar te krijgen bieden Hattie & Timperley het volgende feedback-model:

Bron: Hattie, J., & Timperley, H. (2007). The power of feedback. Review of educational research, 77(1), 81-112.

Om een leerling bewust te maken van de ontwikkelingen en vorderingen die zijn gemaakt richting het gestelde doel, moeten docenten drie vragen centraal stellen:

  1. Feed Up: waar ga je naartoe, wat is jouw doel of welke resultaten wil je bereiken?
  2. Feed Back: wat heb je gedaan, hoe heb je het tot nu toe aangepakt?
  3. Feed Forward: wat is je volgende stap, wat ga je verder doen om het doel te bereiken?

In deze video worden de resultaten uit het onderzoek van Hattie & Timperley in het kort nog eens uitgelegd.

Er bestaan volgens het onderzoek van Hattie & Timperley vier niveaus van feedback:

  1. Feedback op de taakuitvoering

“Je hebt 63% juist beantwoord.”

  1. Feedback op het proces

“Kijk nog eens naar deze video en probeer het dan nog een keer.”

  1. Feedback op zelfregulerend werken

“Als je nu terugkijkt op deze taak, wat zorgde ervoor dat het goed ging?”

  1. Feedback op de persoon. Deze feedback wordt niet als effectief gezien.

“Je let niet op.” “Wat ben jij toch een slim kind.” “Zit niet zo te dromen.”  

Feedback op het proces en op het zelfregulerend werken, blijkt het meest effectief te zijn. Feedback op de persoon is minder nuttig, omdat de leerling hier weinig controle over heeft.

Feedback geven is ontzettend belangrijk voor leren en ontwikkelen. Naast het geven van instructie/aanwijzingen is dit de meest invloedrijke interventie die docenten hebben in een klas. Zorgvuldig feedback geven is dus de moeite waard, maar vraagt ook om oefening en reflectie.

Wil je het onderzoek van Hattie & Timperley nalezen? Dat kan hier.


Het gebruik van rubrics bij het beoordelen van opdrachten is populair in ons huidige onderwijs. Een rubric zou de beoordeling van het werk van studenten enorm verbeteren en verrijken, maar hoe zit het eigenlijk met de validiteit? Levert een rubric ook daadwerkelijk een betrouwbaar en valide oordeel op?

Een rubric is een set van beoordelingscriteria, waarmee opdrachten van studenten worden beoordeeld. Een rubric kan zowel holistisch worden gebruikt, als analytisch (of een combinatie van die twee), waarbij in holistische zin de opdracht als geheel wordt beoordeeld en in analytische zin per onderdeel van de opdracht een oordeel wordt gegeven, die samen het eindoordeel bepalen.

Criterium Onvoldoende Matig Voldoende Goed
Kennis en inzicht over de inhoud: het argument Gebrek aan kennis en inzicht over het inhoudsdomein, dat leidt tot een niet-overtuigend argument. Beperkte kennis en inzicht over het inhoudsdomein. Herkenbaar door vage en onduidelijke taal. Geen overtuigend argument. Kennis en inzicht over het grootste deel van het inhoudsdomein. Geeft fragmentarisch een overtuigend argument. Duidelijk kennis en inzicht over het inhoudsdomein. Herkenbaar door duidelijke en concrete taal en complexe ideeën. Sterke, overtuigende en consistente argumenten.

Voorbeeld van beoordelingscriterium uitgewerkt in een rubric

Uit onderzoek blijkt dat beoordelaarsfouten bij het beoordelen van opdrachten helaas veel voorkomen (bijvoorbeeld Gage en Berliner uit 1992). Studenten die een goede schrijfstijl hebben en zich kunnen houden aan de spelling- en grammaticaregels, krijgen hogere cijfers voor hun essays dan studenten die deze vaardigheden niet beheersen. Oók wanneer docenten wordt gevraagd alleen de inhoud te beoordelen. Zelfs interpunctie en fouten in de opmaak van het document blijken een rol te spelen bij de beoordeling van de inhoud. Gage en Berliner (1992) onderzochten de betrouwbaarheid en validiteit van het beoordelen van essays, door een groep van 100 docenten een essay te laten beoordelen, zonder een rubric. Alle docenten beoordeelden hetzelfde essay en scoorden deze op een 100 puntsschaal. Hoewel de docenten dezelfde instructies hadden gekregen, varieerden de cijfers enorm. De scores liepen van 60 tot ruim 90 punten.

De rubric is een instrument dat moet helpen om deze beoordelaarsfouten te voorkomen. Uit onderzoek blijkt ook dat docenten zich zelfverzekerder voelen tijdens het beoordelen, door het gebruik van een rubric (Silvestri & Oescher, 2006). Is dat gevoel dan ook terecht?

Rezaei & Lovorn (2010) deden een poging om deze vraag te beantwoorden, door te kijken naar de vraag of een rubric beoordelaars helpt te voorkomen dat ze teveel aandacht besteden aan de schrijfvaardigheid van de studenten, boven de redeneerkwaliteit, inhoud van de kennis en het logisch denken. Zij deden dit door 326 beoordelaars twee essays te laten beoordelen, eenmaal met en eenmaal zonder rubric. De beoordelaars werden onderverdeeld in 4 groepen. De eerste twee groepen bestonden uit docenten en docenten in-opleiding (71 en 108 personen). De derde en vierde groep waren studenten uit de bedrijfskundige en marketingopleidingen, in de leeftijd van 20 tot 55 jaar (85 en 72 personen).

In het eerste experiment werden groep 1 (docenten) en groep 3 (bedrijfskundigen) gevraagd een essay te beoordelen over de economische globalisatie. Het essay moest daarbij voldoen aan een aantal inhoudelijke eisen en antwoord geven op een specifieke vraag. Essay 1 was bijzonder netjes geschreven, correct qua spelling en grammatica, maar gaf geen antwoord op de gestelde vraag en voldeed daarbij niet aan het belangrijkste criterium.

Groep 2 (docenten) en groep 4 (bedrijfskundigen) kregen een ander essay om te beoordelen, gemaakt met dezelfde opdracht. In dit geval voldeed het essay inhoudelijk aan alle eisen en zou volgens de gegeven rubric hoog moeten scoren. Maar de schrijfvaardigheid liet wat te wensen over. Er stonden 20 structuur-, spelling- en grammaticafouten in.

In de rubric die de beoordelaars kregen, mocht de schrijfvaardigheid beoordeeld worden met maximaal 10 punten. De andere 90 punten ging over het inhoudelijke deel van de opdracht.

De gedachte achter dit experiment was dat de beoordeling met de rubric vermoedelijk tot een betere beslissing zou leiden. Dat het inhoudelijk goede essay daarmee hoger zou scoren, dan het inhoudelijk slechte essay. Helaas bleek het tegendeel waar. Daarnaast zou je verwachten dat het gebruik van de rubric het bereik en de variantie van de gegeven scores zou verminderen, maar ook dat werd niet bereikt. De variantie van de scores steeg zelfs aanzienlijk bij het gebruik van de rubric.
Daarnaast werd duidelijk dat de beoordelaars enorm beïnvloed werden door de schrijfvaardigheid van de student. Het goede essay werd door veel beoordelaars lager beoordeeld dan het slechte essay. Bij navraag gaven die beoordelaars aan, dat ze vonden dat de student in het geval van het slechte essay niet de moeite had genomen om er echt aandacht aan te besteden en de spelling te checken. Hoewel taalvaardigheid maar 10 van de 100 punten had mogen bepalen, speelde het in dit experiment dus toch een grotere rol. Terwijl de rubric daar heel duidelijk over was.
Het foute essay ontving in alle gevallen een resultaat ‘geslaagd’, zélfs op het onderdeel dat ging over het beantwoorden van de gestelde vraag (die door deze student niet werd beantwoord). Ook al proberen beoordelaars zich dus te houden aan de rubric, zij werden toch hevig beïnvloed door de intuïtieve indruk van de tekst wanneer ze deze voor het eerst lazen.

Dat zou betekenen dat het gebruik van een rubric toch niet doet wat het beloofd, maar het niet meer gebruiken van een rubric maakt het niet beter. Er zijn onderzoekers (zoals bijvoorbeeld Elliot) die aangeven dat men zich daarom steeds moet beseffen, dat zelfs met een rubric beoordelaarsfouten voorkomen en zij pleiten voor een portfolio-assessment in plaats van enkele momentopnames. Daarnaast is het ontwerp en vooral het trainen van beoordelaars in het gebruik van een rubric heel effectief gebleken. Het trainen van de beoordelaars is in dit experiment minimaal gedaan. Dat kan een grote rol hebben gespeeld in de uitkomst.

 

Meer lezen over deze en andere onderzoeken:

Rezaei, A.R., & Lovorn, M. (2010). Reliability and validity of rubrics for assessment through writing.

Gage, N. L., & Berliner, D. C. (1992). Educational psychology. Wentzville, MO: Borgasorus Books.

Silvestri, L., & Oescher, J. (2006). Using rubrics to increase the reliability of assessment in health classes. International. Electronic Journal of Health Education, 9, 25–30.


Voor onderwijsinstellingen is de stap naar blended learning vaak al enige tijd geleden genomen. Voor een kleine brancheorganisatie die al jaren klassikale cursussen aanbiedt, is dat een heel ander verhaal. Wanneer er geen onderwijskundig personeel is, wie gaat er dan voor zorgen dat die stap wordt gezet? Vereniging ION ging de uitdaging aan. Op 7 februari j.l. presenteerden zij vol trots hun digitale opleiding in een splinternieuwe leeromgeving.

Vereniging ION is de brancheorganisatie voor iedereen die actief is in de oppervlaktebehandeling industrie. Voorbeelden van oppervlaktebehandelingen zijn natlakken, poedercoaten, anodiseren en verzinken. Vereniging ION heeft zo’n 300 leden, bestaande uit organisaties die deze werkzaamheden uitvoeren. Voor hun leden verzorgt de vereniging al sinds jaren verschillende klassikale opleidingen. De start van een opleiding was altijd afhankelijk van het aantal inschrijvingen.

Bij voldoende inschrijvingen (6 cursisten) kon de opleiding van start gaan. Dat zorgde er wel eens voor dat een cursist even moest wachten, voordat hij kon beginnen. Jacques Schreuder, sectorsecretaris, branchemanager en opleidingscoördinator van Vereniging ION, vond dat altijd ontzettend jammer. “Het is belangrijk als een medewerker graag een cursus wil volgen, die nodig is voor het bedrijf waar hij werkt, hij dan ook snel kan beginnen. Dat konden we met onze cursussen niet voor elkaar krijgen en dat was één van de redenen om te kijken naar een andere manier van opleiden.”

Op basis van die wens heeft de vereniging de beleidsvisie ‘Vakgericht Opleiden 2018-2019’ uitgebracht. “Voor het reguliere onderwijs is het heel lastig om ons vak te doceren. Het is vaak niet kostendekkend. Vereniging ION ziet het daarom als haar plicht om de cursussen aan te bieden, zodat de branche wel de gelegenheid heeft om zijn personeel op te leiden”, zegt Jacques. Voor de verschillende cursussen die de vereniging aanbiedt, ontvangen zij jaarlijks zo’n 300 cursisten. Cursisten zijn altijd werkzaam in de praktijk, daarom is aansluiting van het lesmateriaal bij de praktijk ontzettend belangrijk. “We hebben vorig jaar besloten om met RemindoContent ons cursusmateriaal digitaal aan te bieden. Ik ontdekte als groot voordeel dat je daar alle inhoud in een contentbibliotheek opslaat. Het worden dan losse kralen, die ik later samenvoeg als een ketting die de cursus vormt. Dat betekent dat ik de losse kralen dus ook op andere manieren kan samenvoegen, zodat we beter bij de praktijk van de individuele cursist kunnen aansluiten”, aldus Jacques.

Het valt niet mee voor Jacques om de opleiding om te zetten naar de digitale leeromgeving. “We zitten hier op kantoor met z’n tweeën. Er zijn genoeg ideeën, maar eigenlijk te weinig tijd om het uit te voeren. Nu gaan alle cursusmaterialen door mijn handen en krijg ik de neiging om direct alles te verbeteren, maar ik ben nu tot de conclusie gekomen dat het niet kan. Je kunt niet alles in één keer aanpakken. Dus hebben we besloten om doorgaan met de verbouwing, terwijl de winkel open is. Dat betekent dat ik nu al het lesmateriaal er eerst ‘gewoon’ in plaats en we daarna met behulp van de docenten het gaan verbeteren en verrijken met andere werkvormen.

Het gaat niet zonder slag of stoot, maar ik word er wel heel enthousiast van. Ik zie dat we op deze manier toewerken naar een flexibel opleidingssysteem, dat betaalbaar is en aansluit bij de belevingswereld van nu. Het kost alleen tijd.”

 


De hele klas maakt een toets over de geschiedenis van Frankrijk, voor de toets kun je 100 punten halen. Marieke haalt 30 punten, Renske haalt 60 punten. Kun je dan zeggen: Renske weet twee keer meer over de geschiedenis van Frankrijk dan Marieke? Nee, die conclusie is onjuist.

Uit een toets komen scores. Die scores worden verdeeld over een meetschaal. Er zijn verschillende schaaltypen mogelijk. Zo bestaan er nominale, ordinale, interval- en ratioschalen. De meeste toetsscores worden geïnterpreteerd met behulp van een intervalschaal. Alle schalen hebben hun voor- en nadelen.

Nominale schaal

De nominale schaal is de simpelste schaal. Een nominale schaal deelt informatie op in categorieën, maar volgorde van de categorieën hebben geen betekenis. Bijvoorbeeld: een groep mensen wordt verdeeld op basis van geboorteplaats. De ene geboorteplaats is niet belangrijker of hoger dan de andere geboorteplaats. Het enige wat je kunt doen met deze schaal is de aantallen in de verschillende categorieën tellen en vergelijken welke getallen even groot zijn.

Ordinale schaal

Ordinale schalen rangschikken gegevens met behulp van een aantal of een eigenschap. Bijvoorbeeld: iedereen krijgt een schooladvies vmbo/havo/vwo. Omdat deze schaal wel een logische volgorde heeft, kun je er wat meer mee. Zo kun je wel zien wie een hoger advies heeft gekregen, maar je kunt niet exact zeggen hoeveel hoger. Want de intervallen tussen vmbo en havo, tussen havo en vwo, hoeven niet gelijk te zijn. Je zou wel kunnen zeggen: Herman heeft een hoger advies gekregen dan André.

Intervalschaal

Een intervalschaal rangschikt de informatie zoals een ordinale schaal, maar dan met gelijke eenheden. Op deze schaal worden de meeste toetsscores gelegd, zoals in het voorbeeld uit de inleiding. Het verschil tussen een score van 70 en een score van 71 is op een intervalschaal hetzelfde als het verschil tussen een score van 83 en een score van 84. Daarom kun je met de resultaten uit deze schaal veel berekeningen doen.

En toch mag je niet de conclusie trekken ‘Renske weet twee keer meer dan Marieke’. Dat komt omdat de intervalschaal geen absoluut nulpunt heeft. Daarmee wordt bedoeld dat wanneer iemand op 0 staat in deze schaal, dat dit niet betekent dat de gemeten eigenschap in zijn geheel niet aanwezig is. Dus iemand die op de toets 0 punten scoort kan wel degelijk enige kennis hebben over Frankrijk.

Wanneer je dergelijke conclusies wel wilt trekken, moet je een ratioschaal gebruiken.

Ratioschaal

Een ratioschaal heeft de eigenschappen van een intervalschaal, maar dan met een absoluut nulpunt. Het absolute nulpunt betekent dat de eigenschap die wordt gemeten bij een score van 0 compleet afwezig is. Een ratioschaal gebruik je bijvoorbeeld bij gewicht. Bij 0 kilo is er geen gewicht. Met een ratioschaal mag je wel zeggen: Thijn weegt twee keer zoveel als Astrid. Helaas zijn er maar weinig educatieve toetsen te bedenken met een ratioschaal.

Wat je wel kunt doen, is je houden aan percentage correct. Het is wel mogelijk om in de geschiedenis toets 0% juist te beantwoorden. Daarmee heeft Renske wel twee keer meer punten gehaald dan Marieke.

 


“In de praktijk zie ik veel onzekerheid als het gaat om toetsanalyse en om het bepalen van cesuur. Het zijn beide veelal rekenkundige onderwerpen en dat maakt het voor veel mensen complex, zelfs wanneer alle gegevens beschikbaar zijn. Ik zie het als mijn taak om kennis hierover te delen, zodat we studenten terecht laten zakken of slagen, bovendien is het niet zo ingewikkeld als velen denken”, zegt Harry Molkenboer. Op 28 maart a.s. geeft hij een gratis training bij Paragin voor alle gebruikers van RemindoToets. 

Harry Molkenboer is de eigenaar van Bureau voor Toetsen & Beoordelen. Veel mensen kennen Harry als auteur van boeken over toetsontwikkeling. Dit jaar ontving Harry als één van de eerste personen in Nederland zijn masterdiploma als Toetsdeskundige.

Op donderdag 28 maart a.s. is Harry bij Paragin in Nijkerk. Hij verzorgt die middag een training over toetsanalyse en cesuur bepalen. Tijdens de training krijgen deelnemers concrete handvatten, waarmee ze in hun eigen praktijk toetsen en vragen kunnen verbeteren.

Toetsanalyse

“Ik heb voor het onderwerp toetsanalyse gekozen, omdat een analyse van de zogenaamde toets- en itemindices zoals een p-waarde (moeilijkheid) en een Rir-waarde (onderscheidend vermogen van een vraag), handvatten geven om naar de kwaliteit van de vragen en de toets te kijken. Hiermee kunnen vragen en de toets verbeterd worden voor een volgende afname. Werken met lastige formules is helemaal niet nodig om de analysegegevens uit RemindoToets te kunnen gebruiken. Het gaat om het kunnen geven van betekenis aan de verschillende indices, mede in relatie tot elkaar. Die betekenis ga ik toelichten aan de hand van verschillende voorbeelden. Aan het einde van de middag hebben de indices geen geheimen meer voor je en kun je ze zelf toepassen”, vertelt Harry.

Cesuur

Harry: “Mensen zeggen vaak: de cesuur is een 5,5. Dan zeg ik altijd: wat jij noemt, is een cijfer, maar bij welke score heb je een 5,5? Die score is de cesuur. En waarom wordt daar vaak gedachteloos 55% voor gebruikt? Hoe zit dat bij gesloten vragen en bij open vragen? Door de cesuur te bepalen, neem je als toetsmaker een hele belangrijke beslissing. Je moet het op een goede manier vaststellen, anders weet je niet of de beslissingen zoveel als mogelijk recht doen aan terecht gezakte of terecht geslaagde studenten. Daarom neem ik dit onderwerpen graag mee in de training.”

Het ontwikkelen en afnemen van een goede toets is volgens Harry complex. “Er komt veel bij kijken en het is afhankelijk van veel factoren. Ook van factoren die je niet kunt beïnvloeden. We hebben één ding wel redelijk in de hand: het ontwikkelen van een toetstechnisch goede toets, maar zelfs als je dat helemaal goed doet, is het nog niet 100%.”

Tot slot

“Het is voor mij de uitdaging om die kennis en inzichten aan te reiken die nodig zijn om toetsontwikkelaars goed te kunnen laten toetsen. Omdat we dan de beste beslissing nemen over welke student slaagt en welke zakt. Ik leer je zelf de kwaliteit van je toets te beoordelen. De toetsanalyse is de röntgenfoto van je toets en je vragen. Je moet hem alleen nog goed beoordelen.”

Er is nog een aantal plaatsen vrij voor de training op 28 maart. Wees er snel bij en schrijf je in via Paragin events.


De valkuilen van feedback geven

A: “Zeg, ik wil iets met je bespreken, maar je moet het niet al te persoonlijk opvatten.”

B: “Ok, nou zeg het maar dan.”

A: “Tja, als ik heel eerlijk moet zijn, heb je dit niet echt handig aangepakt.”

B: “Oh ja? Ik vond het eigenlijk heel slim van mezelf.”

A: “Echt waar? Oh, nou… het is natuurlijk maar gewoon mijn mening.”

 

In het onderwijs, het bedrijfsleven en zelfs thuis, overal ben je ermee bezig: feedback geven. Als je wilt dat iets verandert of verbetert, zul je er wel aan moeten beginnen. Je zou het kunnen zien als een cadeautje; je helpt de ander zichzelf te verbeteren, maar is dat wel zo? Is het wel zo’n cadeautje? Vaak levert het helemaal niet zo’n fijn gevoel op, zowel bij jezelf als bij de ander.

De bedoeling van feedback geven is dat de ander inzicht krijgt in zijn gedrag. Daar kan hij dan van leren en iets aan veranderen, maar dat gebeurt eigenlijk alleen maar als die ander dat zelf wil. Als hij feedback krijgt over iets wat hij graag zou willen leren, is dat mooi meegenomen. Maar als het gaat over iets waar zijn interesse helemaal niet ligt, of waarvan hij denkt dat hij dat prima heeft opgelost? Lekker cadeautje is dat. Dan voelt het meer als kritiek en daar worden we allemaal niet veel beter van. Het gevolg is dat het hele feedback geven een nare bijsmaak krijgt. Dat is zonde, want het kan best eenvoudig zijn. Probeer de volgende drie valkuilen te voorkomen:

 

  • Feedback geven wordt verward met iemand aanspreken op gedrag

Iemand feedback geven of iemand aanspreken op zijn gedrag, zijn twee verschillende dingen. Bij het geven van feedback is het doel om de ander inzicht te geven in zijn gedrag en geef je aan wat daar het effect  van is, zodat die persoon zich daar bewust van wordt. Er zit geen oordeel aan vast. Bijvoorbeeld: “Je kwam te laat op de afspraak, ik zat daar met de klant op jou te wachten en voelde me behoorlijk ongemakkelijk.”

Als je iemand aanspreekt op zijn gedrag heeft dat een corrigerend doel. Bijvoorbeeld: “Je bent te laat, zo gaan we in deze organisatie niet om met afspraken. Dit mag niet meer gebeuren.” Als iemand wordt aangesproken op zijn gedrag is dat niet meer vrijblijvend en dat is ook precies de bedoeling. Als je feedback geeft, wil je dat effect niet. Je geeft de ander inzicht en het is aan hem om te bepalen of hij daar iets mee wil doen. Het is bedoeld voor zijn ontwikkeling.

  • Teveel sandwichen

Veel mensen hebben geleerd om de feedback te sandwichen. Een negatief punt wordt dan tussen twee positieve punten verpakt. Bijvoorbeeld: “Wat heb jij veel werk verzet aan dit project zeg. Ik merk wel dat je deadlines niet haalt, daar word ik wel onrustig van. Maar het is wel leuk om te zien hoe enthousiast je bent over het project.” Als je teveel sandwiched, dan kunnen er twee dingen gebeuren:

  • Mensen horen de complimenten niet meer, maar vragen zich af wat nu precies je punt is;
  • Mensen horen het verbeterpunt niet meer, want het lijkt alsof je het zelf al goedpraat.

Vergeet de sandwichmethode en wees concreet. “Ik zie dat je de deadlines niet haalt en daar word ik een beetje onrustig van.” Dan kun je altijd in het gesprek dat hierna volgt je complimenten alsnog geven (als ze gemeend zijn).

In het algemeen is het belangrijk om negatieve feedback goed af te wisselen met positieve feedback, waarbij de positieve feedback iets meer de aandacht krijgt.

  • Mag ik je feedback geven?

Niet alleen voor de feedback-ontvanger, maar ook voor de feedback-gever komt er vaak veel spanning bij kijken. Ergens op de dag moet je er als feedback-gever ineens over beginnen. Wanneer doe je dat en hoe begin je dan? In de praktijk hoor je dan nog vaak de vraag: “mag ik je feedback geven?” Of andere varianten zoals: “mag ik je een tip geven?” Daarmee zet je de feedback-ontvanger meteen op scherp. Hier staat iets te gebeuren en dat wordt niet fijn. Bovendien is het antwoord op die vraag niet verrassend en kan ook voor problemen zorgen. Zegt de feedback-ontvanger ‘ja’, dan kun je beginnen aan het verwoorden van je feedback. Is het ‘nee’, dan heb je eigenlijk meteen een nieuw punt wat je niet fijn vindt aan deze persoon. Sla die vraag daarom maar over. Begin meteen met je constatering, bijvoorbeeld: “Je hebt de stukken niet aangeleverd, zie ik.” of “Je praat wel vaak over haar en niet zo aardig.”

Feedback geven en ontvangen is ontzettend waardevol, niet alleen binnen organisaties en het onderwijs, maar ook in de persoonlijke omgeving van mensen. Het zou zonde zijn wanneer je terughoudend wordt door de complexiteit van de feedback-techniek of het nare gevoel dat je ervan krijgt. De basis van goed feedback geven, ligt bij jouw intentie. Wil je de ander ermee helpen? Dan kan het bijna niet verkeerd gaan.

1 2 3 5