De vraagindices uit RemindoToets toegelicht
De p’-, rit– of rir-, rat– of rar– en de a-waarde, RemindoToets geeft al deze vraagindices weer in de toetsanalyse. Veel informatie, maar wat moet je ermee? In dit artikel lees je een toelichting over de vraagindices, zodat je méér uit je toetsanalyse kunt halen.
Indices is het meervoud van index. Vraagindices zijn dus eigenlijk meerdere getallen die een verhouding weergeven. Het klinkt heel ingewikkeld, maar eigenlijk kijk je naar allerlei gegevens over de afname van je vraag. En dat is interessant, want je wilt graag weten of je vraag goed is geweest en bijvoorbeeld onderscheid heeft gemaakt tussen kandidaten die de kennis wel hebben en kandidaten die dat niet hebben. Dat bepaalt of je de vraag wilt blijven gebruiken, hem aanpast of helemaal archiveert.
Voordat je de vraagindices gaat bekijken, kijk je eerst naar de betrouwbaarheid van de toets en de analyse-waarden van de toets. Je wilt namelijk eerst weten hoe serieus je de waarden moet nemen. Wil je precies weten hoe je de toetsanalyse stap voor stap aanpakt, lees dan ons artikel ‘Toetsanalyse in RemindoToets‘.
Vraagindices bekijk je altijd gezamenlijk. Dan kun je een juiste conclusie trekken over het betreffende vraag.
De p’-waarde
De p’-waarde geeft de moeilijkheidsgraad van de vraag aan. De waarde laat zien wat het gemiddeld aantal punten is dat kandidaten hebben behaald met deze vraag. Het wordt berekend door de gemiddelde score van alle kandidaten op deze vraag te delen door het maximum aantal te behalen punten. Een p’-waarde ligt tussen de 0 en 1.
Een p’-waarde van 0,39 geeft bijvoorbeeld aan dat de kandidaten gemiddeld 39% van het maximum aantal punten voor deze vraag hebben gescoord. Dat zou kunnen duiden op een te moeilijke of niet-relevante vraag. Maar dat hóeft niet zo te zijn. Het is belangrijk dat er genoeg variatie in een examen zit. Een vraag met een p’-waarde van 0,39 is bijvoorbeeld prima tussen vragen met een p’-waarde van bijvoorbeeld 0,7.
Je kunt ernaar streven om de p’-waarde ergens tussen de 0,4 en 0,6 te krijgen.
Houd er rekening mee dat verschillende zaken invloed hebben op de p’-waarde. Herkansers veroorzaken vaak een lagere p’-waarde en vragen die als laatste in het examen worden gesteld, kunnen ook een lagere p’-waarde vertonen (vanwege gebrek aan concentratie of te weinig tijd). Het hoeft niet altijd een slechte vraag te zijn.
De rit en rir-waarden
Een goede vraag in een toets heeft onderscheidend vermogen. Daarmee wordt bedoeld dat de vraag onderscheid maakt tussen kandidaten die de kennis hebben en kandidaten die de kennis niet hebben. Als dat niet zo is, dan is er iets vreemds aan de hand. De rit- en de rir-waarden geven dat onderscheidend vermogen weer, het staat voor relatie item toets (rit) en relatie item rest (rir).
Om te bepalen wie een goede kandidaat is, wordt de totaalscore van de toets gebruikt. De rit-waarde wordt berekend door het resultaat van het vraag te vergelijken met het resultaat van de toets. Als een kandidaat met een hoge score een goed antwoord heeft gegeven op de vraag en een kandidaat met een lage score een fout antwoord heeft gegeven op de vraag, dan is er sprake van een vraag met onderscheidend vermogen en zie je een hoge rit-waarde. De vraag heeft dan de goede kandidaten van de slechte kandidaten gescheiden. In dat geval draagt de vraag bij aan de validiteit van de toets.
Het nadeel van de rit-waarde is dat de vraag waar de waarde over gaat, ook is meegerekend bij de vergelijking met de toetsscore. Dat is eigenlijk niet correct (hoewel het verschil in de waarden vaak verwaarloosbaar is). De rir-waarde is in dat opzicht beter (relatie item rest). Daarbij zijn de punten van de specifieke vraag weggelaten uit de score waarmee wordt vergeleken.
De rit- en rir-waarden liggen tussen de -1 en +1. Hoe hoger de rit en rir-waarden, hoe groter het onderscheidend vermogen. Een rir-waarde van 0,25 of hoger laat voldoende onderscheidend vermogen zien. Het advies is om bij negatieve rit- en rir-waarden kritisch naar de vraag te kijken. Dan hebben kandidaten die laag scoren op de toets de vraag dus vaker juist beantwoord dan kandidaten die hoog scoren op de toets. Misschien zit er een fout in het correctiemodel of is de vraag niet goed geformuleerd.
Standaardafwijking
De standaardafwijking (in RemindoToets getoond als STD, als afkorting van standaarddeviatie) geeft aan hoe ver de behaalde scores op de vraag uiteen liggen. Hoe lager de standaardafwijking, hoe dichter de scores bij elkaar liggen. Bij een standaardafwijking van 0 heeft iedere kandidaat exact dezelfde score behaald. Dat zou wel een kritische blik waard zijn. Wanneer alle 100 kandidaten bijvoorbeeld 6 van de 10 punten hebben gehaald, dan zou er misschien iets fout kunnen gaan bij de puntentoekenning. Een hoge standaardafwijking duidt op een grote spreiding tussen goede en slechte scores en geeft dus een groot onderscheidend vermogen weer.
De a-waarde
Bij gesloten vragen, zoals meerkeuzevragen, is de a-waarde een interessant hulpmiddel om de kwaliteit van de afleiders te meten. Iedere afleider in een toets heeft een eigen a-waarde, die weergeeft welk deel van de kandidaten heeft gekozen voor deze afleider. Het aantal kandidaten dat voor een fout antwoord kiest, zegt iets over de aannemelijkheid van de afleiders.
Het onderstaande voorbeeld gaat uit van een vraag met vier antwoordopties waarvan één antwoord juist is. In de analyse is te zien dat de a-waarde van het juiste antwoord (B) 0,38 is, wat betekent dat 38% van de kandidaten het juiste antwoord heeft gegeven.
NB: omdat één punt wordt toegekend aan één juist antwoord, is de p’-waarde in dit voorbeeld gelijk aan de a-waarde van het juiste antwoord. Deze waarden zullen uiteenlopen bij een complexere puntenverdeling.
De drie foutieve afleiders hebben samen een a-waarde van 1 – 0,38 = 0,62. Idealiter zouden alle foutieve afleiders ongeveer dezelfde a-waarde hebben, in dit geval 0,62 / 3 = 0,21. Dit zou betekenen dat ze allemaal even plausibel zijn. In het voorbeeld zie je dat de a-waarden van de foute antwoorden respectievelijk 0,36 (D), 0,19 (C) en 0,07 (A) zijn. Mogelijk lijkt de onjuiste afleider D veel op het juiste antwoord. Ook kan het zijn dat de kandidaten op het verkeerde been zijn gezet of het verkeerde antwoord hebben aangeleerd. Afleider D vraagt dus om nadere analyse. Afleider A heeft een relatief lage a-waarde en is kennelijk niet erg aannemelijk als antwoord op de vraag. Je zou er daarom voor kunnen kiezen deze afleider te verwijderen.
De rat– en rar-waarden
De rat- en de rar-waarden zijn verbonden aan de rit- en de rir-waarden. Rat staat voor relatie afleider toets en rar voor relatie afleider rest (waarbij de laatste een betere meting geeft, zie uitleg over rit en rir). Aan deze waarden zie je in hoeverre de keuze voor een bepaalde afleider zich verhoudt tot de rest van de toets.
De rar-waarde is interessant omdat je daarmee kunt zien of kandidaten die goed presteren op de toets bij een specifieke vraag wellicht eerder een foutieve afleider hebben gekozen. Zijn de goede kandidaten dan misschien op het verkeerde been gezet? Of misschien is er een fout geslopen in het antwoordmodel, of leidt de vraagstelling teveel naar een onjuist antwoord.
Als je al deze gegevens over je vraag hebt bekeken, kun je een goede conclusie trekken. Was de vraag van goede kwaliteit? Neem dan een beslissing over wat jouw analyse betekent voor de afname die is geweest. Pas je bijvoorbeeld het antwoordmodel aan? Of verwijder je de vraag helemaal uit het examen? Vergeet dan niet om de vraag in ieder geval in de vragenbank te verbeteren, zodat je in de toekomst met een betere vraag verder kan.
We wensen je veel succes bij het analyseren van je toets. Lees voor meer informatie ook nog dit artikel ‘Toetsanalyse in RemindoToets‘ en houd onze events in de gaten voor leuke trainingen over toetsanalyse.
One thought on “Rara, wat moet je met de rar-waarde?”
Comments are closed.