Validiteit van rubrics

Het gebruik van rubrics bij het beoordelen van opdrachten is populair in ons huidige onderwijs. Een rubric zou

Het gebruik van rubrics bij het beoordelen van opdrachten is populair in ons huidige onderwijs. Een rubric zou de beoordeling van het werk van studenten enorm verbeteren en verrijken, maar hoe zit het eigenlijk met de validiteit? Levert een rubric ook daadwerkelijk een betrouwbaar en valide oordeel op?

Een rubric is een set van beoordelingscriteria, waarmee opdrachten van studenten worden beoordeeld. Een rubric kan zowel holistisch worden gebruikt, als analytisch (of een combinatie van die twee), waarbij in holistische zin de opdracht als geheel wordt beoordeeld en in analytische zin per onderdeel van de opdracht een oordeel wordt gegeven, die samen het eindoordeel bepalen.

Criterium Onvoldoende Matig Voldoende Goed
Kennis en inzicht over de inhoud: het argument Gebrek aan kennis en inzicht over het inhoudsdomein, dat leidt tot een niet-overtuigend argument. Beperkte kennis en inzicht over het inhoudsdomein. Herkenbaar door vage en onduidelijke taal. Geen overtuigend argument. Kennis en inzicht over het grootste deel van het inhoudsdomein. Geeft fragmentarisch een overtuigend argument. Duidelijk kennis en inzicht over het inhoudsdomein. Herkenbaar door duidelijke en concrete taal en complexe ideeën. Sterke, overtuigende en consistente argumenten.

Voorbeeld van beoordelingscriterium uitgewerkt in een rubric

Uit onderzoek blijkt dat beoordelaarsfouten bij het beoordelen van opdrachten helaas veel voorkomen (bijvoorbeeld Gage en Berliner uit 1992). Studenten die een goede schrijfstijl hebben en zich kunnen houden aan de spelling- en grammaticaregels, krijgen hogere cijfers voor hun essays dan studenten die deze vaardigheden niet beheersen. Oók wanneer docenten wordt gevraagd alleen de inhoud te beoordelen. Zelfs interpunctie en fouten in de opmaak van het document blijken een rol te spelen bij de beoordeling van de inhoud. Gage en Berliner (1992) onderzochten de betrouwbaarheid en validiteit van het beoordelen van essays, door een groep van 100 docenten een essay te laten beoordelen, zonder een rubric. Alle docenten beoordeelden hetzelfde essay en scoorden deze op een 100 puntsschaal. Hoewel de docenten dezelfde instructies hadden gekregen, varieerden de cijfers enorm. De scores liepen van 60 tot ruim 90 punten.

De rubric is een instrument dat moet helpen om deze beoordelaarsfouten te voorkomen. Uit onderzoek blijkt ook dat docenten zich zelfverzekerder voelen tijdens het beoordelen, door het gebruik van een rubric (Silvestri & Oescher, 2006). Is dat gevoel dan ook terecht?

Rezaei & Lovorn (2010) deden een poging om deze vraag te beantwoorden, door te kijken naar de vraag of een rubric beoordelaars helpt te voorkomen dat ze teveel aandacht besteden aan de schrijfvaardigheid van de studenten, boven de redeneerkwaliteit, inhoud van de kennis en het logisch denken. Zij deden dit door 326 beoordelaars twee essays te laten beoordelen, eenmaal met en eenmaal zonder rubric. De beoordelaars werden onderverdeeld in 4 groepen. De eerste twee groepen bestonden uit docenten en docenten in-opleiding (71 en 108 personen). De derde en vierde groep waren studenten uit de bedrijfskundige en marketingopleidingen, in de leeftijd van 20 tot 55 jaar (85 en 72 personen).

In het eerste experiment werden groep 1 (docenten) en groep 3 (bedrijfskundigen) gevraagd een essay te beoordelen over de economische globalisatie. Het essay moest daarbij voldoen aan een aantal inhoudelijke eisen en antwoord geven op een specifieke vraag. Essay 1 was bijzonder netjes geschreven, correct qua spelling en grammatica, maar gaf geen antwoord op de gestelde vraag en voldeed daarbij niet aan het belangrijkste criterium.

Groep 2 (docenten) en groep 4 (bedrijfskundigen) kregen een ander essay om te beoordelen, gemaakt met dezelfde opdracht. In dit geval voldeed het essay inhoudelijk aan alle eisen en zou volgens de gegeven rubric hoog moeten scoren. Maar de schrijfvaardigheid liet wat te wensen over. Er stonden 20 structuur-, spelling- en grammaticafouten in.

In de rubric die de beoordelaars kregen, mocht de schrijfvaardigheid beoordeeld worden met maximaal 10 punten. De andere 90 punten ging over het inhoudelijke deel van de opdracht.

De gedachte achter dit experiment was dat de beoordeling met de rubric vermoedelijk tot een betere beslissing zou leiden. Dat het inhoudelijk goede essay daarmee hoger zou scoren, dan het inhoudelijk slechte essay. Helaas bleek het tegendeel waar. Daarnaast zou je verwachten dat het gebruik van de rubric het bereik en de variantie van de gegeven scores zou verminderen, maar ook dat werd niet bereikt. De variantie van de scores steeg zelfs aanzienlijk bij het gebruik van de rubric.
Daarnaast werd duidelijk dat de beoordelaars enorm beïnvloed werden door de schrijfvaardigheid van de student. Het goede essay werd door veel beoordelaars lager beoordeeld dan het slechte essay. Bij navraag gaven die beoordelaars aan, dat ze vonden dat de student in het geval van het slechte essay niet de moeite had genomen om er echt aandacht aan te besteden en de spelling te checken. Hoewel taalvaardigheid maar 10 van de 100 punten had mogen bepalen, speelde het in dit experiment dus toch een grotere rol. Terwijl de rubric daar heel duidelijk over was.
Het foute essay ontving in alle gevallen een resultaat ‘geslaagd’, zélfs op het onderdeel dat ging over het beantwoorden van de gestelde vraag (die door deze student niet werd beantwoord). Ook al proberen beoordelaars zich dus te houden aan de rubric, zij werden toch hevig beïnvloed door de intuïtieve indruk van de tekst wanneer ze deze voor het eerst lazen.

Dat zou betekenen dat het gebruik van een rubric toch niet doet wat het beloofd, maar het niet meer gebruiken van een rubric maakt het niet beter. Er zijn onderzoekers (zoals bijvoorbeeld Elliot) die aangeven dat men zich daarom steeds moet beseffen, dat zelfs met een rubric beoordelaarsfouten voorkomen en zij pleiten voor een portfolio-assessment in plaats van enkele momentopnames. Daarnaast is het ontwerp en vooral het trainen van beoordelaars in het gebruik van een rubric heel effectief gebleken. Het trainen van de beoordelaars is in dit experiment minimaal gedaan. Dat kan een grote rol hebben gespeeld in de uitkomst.

 

Meer lezen over deze en andere onderzoeken:

Rezaei, A.R., & Lovorn, M. (2010). Reliability and validity of rubrics for assessment through writing.

Gage, N. L., & Berliner, D. C. (1992). Educational psychology. Wentzville, MO: Borgasorus Books.

Silvestri, L., & Oescher, J. (2006). Using rubrics to increase the reliability of assessment in health classes. International. Electronic Journal of Health Education, 9, 25–30.