Toetsanalyse in RemindoToets

Nadat een toets of examen is afgenomen in RemindoToets, wordt deze beoordeeld (automatisch of met behulp van één

Nadat een toets of examen is afgenomen in RemindoToets, wordt deze beoordeeld (automatisch of met behulp van één of meer correctoren). Wanneer dit is gebeurd, is het belangrijk dat toetsresultaten worden geanalyseerd. Toetsen die in RemindoToets zijn afgenomen of met behulp van de Print&Scan-optie zijn ingelezen, leveren een uitgebreide toetsanalyse op. In deze uitleg lees je meer over de toetsanalyse die je kunt vinden in RemindoToets. Je leest wat de waarden betekenen en wat redenen kunnen zijn om de toets op basis hiervan te repareren.

Analyse van de toets

Je kunt de toetsanalyse bekijken van alle afnames van één specifieke toetsmatrijs. Wanneer een toetsmatrijs vaker dan één keer wordt gebruikt, is dit prettig omdat de meeste analysegegevens pas waardevol worden wanneer 100 of meer kandidaten de vraag of toets hebben gemaakt. RemindoToets geeft je daarbij wel de mogelijkheid om de analyse van de toetsmatrijs verder te specificeren. Je kunt de analyse dan bekijken van een specifieke kandidaat, kandidaatgroep of van een periode. Daarmee kun je een vergelijking maken of de toets bijvoorbeeld in het afgelopen jaar beter of slechter is gemaakt dan het jaar ervoor.

Wat zie je dan vervolgens aan waarden?

Frequentieverdeling: behaalde scores, percentage van maximum score

Allereerst wordt een grafiek getoond, zoals in figuur 1. Deze grafiek geeft een overzicht van de behaalde scores. De grafiek geeft antwoord op de vraag in hoeverre je de gegevens uit de toetsanalyse kunt gebruiken.

In een ideale situatie geeft de grafiek een normale verdeling weer. Dan heeft de grafiek zoveel mogelijk een klokvorm, zoals in figuur 2.

Figuur 1 Frequentieverdeling in RemindoToets

Figuur 2 Normale verdeling

De figuur is dan hoog in het midden en aflopend naar links en rechts. Figuur 1 geeft dus een redelijk normale verdeling aan, met een lichte afwijking naar rechts. De meeste kandidaten scoren tussen de 50% en 70% van het maximum aantal punten. Je kunt dan met de andere toetsanalysewaarden bekijken in hoeverre de toets of de vragen valide en betrouwbaar zijn. Wanneer het hoogste deel van de grafiek meer naar links of meer naar rechts ligt dan kun je de conclusie trekken dat de toets te moeilijk (teveel naar links) of te makkelijk (teveel naar rechts) is geweest. Let erop dat de grafiek geen rekening houdt met de cesuurbepaling. We gaan er bij een normale verdeling vanuit dat de cesuurgrens ligt rond de 55% van het maximum aantal te behalen punten. Als de cesuurgrens hoger ligt, bijvoorbeeld op 70% dan is het fijn als de het hoogste punt van de grafiek rond die plek ligt (bijvoorbeeld tussen de 60% en 80%).

Cronbachs alfa

Na een toetsafname rekent RemindoToets de Cronbachs alfa uit. De Cronbachs alfa geeft aan hoe betrouwbaar de toets is. Het toont de stabiliteit van de toetsscores en geeft aan of de meting iets betekent.

Om te controleren of de toets betrouwbaar is, zou het ideaal zijn om onder dezelfde omstandigheden de toets nogmaals af te nemen en die scores met elkaar te vergelijken (de test-hertest-methode), maar helaas is dat in de praktijk vaak niet mogelijk of wenselijk. Daarvoor is Cronbachs alfa een mooi alternatief. Cronbachs alfa deelt bij de berekening van de score de toets op in allemaal deeltoetsen. Iedere vraag wordt daarbij gezien als een losse deeltoets. Met behulp van een formule (een berekening van standaarddeviaties van de vraagscores – zie het tekstvak hieronder) wordt uitgerekend in hoeverre de score op de verschillende vragen met elkaar samenhangen. Het geeft antwoord op de vraag of er sprake is van interne consistentie. Hoe meer vragen hetzelfde meten, hoe hoger de Cronbachs alfa.

Het resultaat van de Cronbachs alfa is maximaal 1. Er is geen minimale waarde, deze kan namelijk kleiner zijn dan 0.

Figuur 3 Een voorbeeldscore van Cronbachs alfa in RemindoToets

Idealiter is de Cronbachs alfa groter dan 0,70. In de praktijk is een score van 0,60 al mooi. Hoe kleiner de Cronbachs alfa hoe meer ruis er is in het examen. Dan wordt op de verschillende vragen heel verschillend gescoord, met weinig interne consistentie. Kandidaten beantwoorden de ene keer een vraag goed, maar scoren op een andere vraag ‘opeens’ niet goed. Kortom, de toets is weinig voorspelbaar over hoe het kennisniveau van de kandidaten precies is. Dat kan betekenen dat het examen weinig betrouwbaar is en de meting dus weinig betekenis heeft. Dat geldt dan alleen voor de groep kandidaten die de toets hebben gemaakt. De Cronbachs alfa kan er voor een andere afname weer heel anders uit zien.

Wanneer een lage Cronbachs alfa is berekend, hoeft dat echter niet altijd direct te betekenen dat de toets onbetrouwbaar is geweest. Vooral de lengte van de toets heeft veel invloed op de Cronbachs alfa, omdat alle vragen als deeltoetsen worden vergeleken en er bij meer vragen veel te vergelijken is. Maar ook de samenstelling van de groep kandidaten en de betrouwbaarheid van de toetsvragen hebben allemaal invloed op de betrouwbaarheid van de toets.

Voor een betrouwbare berekening van de Cronbachs alfa is het belangrijk dat alle kandidaten (grotendeels) dezelfde vragen/vraagversies hebben gemaakt. RemindoToets geeft een waarschuwing wanneer dit niet het geval is.

Dit is de formule die wordt gebruikt om de Cronbachs alfa te berekenen:

rkk           de berekende Cronbachs alfa

k             het aantal vragen

si2           de variantie over elk afzonderlijk vraag

st2           de variantie over alle vragen

De frequentieverdeling en de Cronbachs alfa gebruik je samen om een oordeel te geven over de betrouwbaarheid van de toets. Vervolgens kijk je naar de analyse van de toetsvragen.

Analyse van de vragen

RemindoToets geeft 5 vraagindices weer: de p’- waarde, de rir-waarde (en de rit-waarde), de standaardafwijking, de a-waarde, de rar– (en de rat-waarde). Vraagindices bekijk je altijd gezamenlijk. Dan kun je een juiste conclusie trekken over het betreffende vraag.

De p’-waarde

De p’-waarde geeft de moeilijkheidsgraad van de vraag aan. De waarde laat zien wat het gemiddeld aantal punten is die kandidaten hebben behaald met deze vraag. Het wordt berekend door de gemiddelde score van alle kandidaten op deze vraag te delen door het maximum aantal te behalen punten. Een p’-waarde ligt tussen de 0 en 1.

Een p’-waarde van 0,39 geeft bijvoorbeeld aan dat de kandidaten gemiddeld 39% van het maximum aantal punten voor deze vraag hebben gescoord. Dat zou kunnen duiden op een te moeilijke of niet-relevante vraag. Maar dat hoeft niet zo te zijn. Het is belangrijk dat er genoeg variatie in een examen zit. Een vraag met een p’-waarde van 0,39 is bijvoorbeeld prima tussen vragen met een p’-waarde van bijvoorbeeld 0,7.

Je kunt ernaar streven om de p’-waarde ergens tussen de 0,4 en 0,6 te krijgen.

Houdt er rekening mee dat verschillende zaken invloed hebben op de p’-waarde. Herkansers veroorzaken vaak een lagere p’-waarde en vragen die als laatste in het examen worden gesteld, kunnen ook een lagere p’-waarde vertonen (vanwege gebrek aan concentratie of te weinig tijd). Het hoeft niet altijd een slechte vraag te zijn.

De rit en rir-waarden

Een goede vraag in een toets heeft onderscheidend vermogen. Daarmee wordt bedoeld dat het vraag onderscheid maakt tussen kandidaten die de kennis hebben en kandidaten die de kennis niet hebben. Als dat niet zo is, dan is er iets vreemds aan de hand. De rit- en de rir-waarden geven dat onderscheidend vermogen weer, het staat voor relatie vraag toets (rit) en relatie vraag rest (rir).

Om te bepalen wie een goede kandidaat is, wordt de totaalscore van de toets gebruikt. De rit-waarde wordt berekend door het resultaat van het vraag te vergelijken met het resultaat van de toets. Als een kandidaat met een hoge score een goed antwoord heeft gegeven op de vraag en een kandidaat met een lage score een fout antwoord heeft gegeven op de vraag, dan is er sprake van een vraag met onderscheidend vermogen en ziet je een hoge rit-waarde. De vraag heeft dan de goede kandidaten van de slechte kandidaten gescheiden. In dat geval draagt de vraag bij aan de validiteit van de toets.

Correlatiecoëfficiënt

Voor het berekenen van de rit-, rir-, rat- en rar-waarden maakt RemindoToets gebruik van het Pearson productmoment correlatiecoëfficiënt. Dit is de maat, waarmee samenhang wordt gemeten tussen twee variabelen: de vraagscores en de toetsscores. Dat is de reden van de score van -1 tot +1 loopt. Negatieve waarde zegt dan iets over de negatieve samenhang tussen vraagscore en toetsscore. Als de ene omhoog gaat, gaat de andere omlaag.

Het nadeel van de rit-waarde is dat de vraag waar de waarde over gaat ook is meegerekend bij de vergelijking met de toetsscore. Dat is eigenlijk niet correct, hoewel het verschil in de waarden vaak verwaarloosbaar is. De rir-waarde is in dat opzicht beter (relatie vraag rest). Daarbij zijn de punten van de specifieke vraag weggelaten uit de score waarmee wordt vergeleken.

De rit- en rir-waarden liggen tussen de -1 en +1. Hoe hoger de rit en rir-waarden, hoe groter het onderscheidend vermogen. Een rir-waarde van 0,25 of hoger laat voldoende onderscheidend vermogen zien. Het advies is om bij negatieve rit- en rir-waarden kritisch naar de vraag te kijken. Dan hebben kandidaten die laag scoren op de toets de vraag dus vaker juist beantwoord dan kandidaten die hoog scoren op de toets. Misschien zit er een fout in het correctiemodel of is de vraag niet goed geformuleerd.

Standaardafwijking

De standaardafwijking (in RemindoToets getoond als STD als afkorting van standaarddeviatie) geeft aan hoe ver de behaalde scores op de vraag uiteen liggen. Hoe lager de standaardafwijking, hoe dichter de scores bij elkaar liggen. Bij een standaardafwijking van 0 heeft iedere kandidaat exact dezelfde score behaald. Dat zou wel een kritische blik waard zijn. Waarom zouden alle 100 kandidaten bijvoorbeeld 6 van de 10 punten hebben gehaald, dan zou er misschien iets fout kunnen gaan bij de puntentoekenning. Een hoge standaardafwijking duidt op een grote spreiding tussen goede en slechte scores en geeft dus een groot onderscheidend vermogen weer.

De a-waarde

Bij gesloten vragen, zoals meerkeuzevragen, is de a-waarde een interessant hulpmiddel om de kwaliteit van de afleiders te meten. Iedere afleider in een toets heeft een eigen a-waarde, die weergeeft welk deel van de kandidaten heeft gekozen voor deze afleider. Het aantal kandidaten dat voor een fout antwoord kiest, zegt iets over de aannemelijkheid van de afleiders.

Het voorbeeld in Figuur 4 gaat uit van een vraag met vier antwoordopties waarvan één antwoord juist is. In de analyse is te zien dat de a-waarde van het juiste antwoord (B) 0,38 is, wat betekent dat 38% van de kandidaten het juiste antwoord heeft gegeven.
NB: omdat één punt wordt toegekend aan één juist antwoord, is de p’-waarde in dit voorbeeld gelijk aan de a-waarde van het juiste antwoord. Deze waarden zullen uiteenlopen bij een complexere puntenverdeling.

Figuur 4 voorbeeld interactie-analyse RemindoToets

De drie foutieve afleiders hebben samen een a-waarde van 1 – 0,38 = 0,62. Idealiter zouden alle foutieve afleiders ongeveer dezelfde a-waarde hebben, in dit geval 0,62 / 3 = 0,21. Dit zou betekenen dat ze allemaal even plausibel zijn. In het voorbeeld zie je dat de a-waarden van de foute antwoorden respectievelijk 0,36 (D), 0,19 (C) en 0,07 (A) zijn. Mogelijk lijkt de onjuiste afleider D veel op het juiste antwoord. Ook kan het zijn dat de kandidaten op het verkeerde been zijn gezet of het verkeerde antwoord hebben aangeleerd. Afleider D vraagt dus om nadere analyse. Afleider A heeft een relatief lage a-waarde en is kennelijk niet erg aannemelijk als antwoord op de vraag. Je zou er daarom voor kunnen kiezen deze afleider te verwijderen.

De rat– en rar-waarden

De rat- en de rar-waarden zijn verbonden aan de rit- en de rir-waarden. Rat staat voor relatie afleider toets en rar voor relatie afleider rest (waarbij de laatste een betere meting geeft, zie uitleg over rit en rir). Aan deze waarden zie je in hoeverre de keuze voor een bepaalde afleider zich verhoudt tot de rest van de toets.

De rar-waarde is interessant omdat je daarmee kunt zien of kandidaten die goed presteren op de toets bij een specifieke vraag wellicht eerder een foutieve afleider hebben gekozen. Zijn de goede kandidaten dan misschien op het verkeerde been gezet? Of misschien is er een fout geslopen in het antwoordmodel, of leidt de vraagstelling teveel naar een onjuist antwoord.

De toetsanalyse beoordelen

Bij het bekijken van de analysewaarden, stel je jezelf de volgende vragen:

  1. Wat is jouw indruk van de examenresultaten?

Voorafgaand aan het bekijken van de analyse heb je meestal al een gevoel bij de toetsresultaten. Past het slagingspercentage bijvoorbeeld bij het beeld dat je vooraf had van de groep kandidaten? Wat is jouw indruk van de kwaliteit van de toets? Vind je de vorm (schriftelijk bijvoorbeeld, of met veel gebruik van video) passen bij de toetscriteria? Wat vind je van de toetsvragen, als je kijkt naar de toetscriteria? Jouw eigen beleving van de toets en het toetsresultaat geeft je vaak focus bij het bekijken van de analyse in RemindoToets.

  1. Over hoeveel kandidaten gaan deze waarden?

Bij meer dan 100 kandidaten, kun je de waarden met vertrouwen onderzoeken. Dan hebben de waarden betrekking op een grote groep personen/afnames. Dan mag je er vanuit gaan dat de waarden iets zeggen over de toets en de vragen. Bij kleinere aantallen zijn de waarden teveel afhankelijk van toevalligheden. Zo kan er toevallig een goede groep studenten tussen zitten of juist veel herkansers, die vaak andere scores laten zien. Je kunt bij kleinere aantallen natuurlijk ook met de analyse aan de slag en ervoor kiezen om vragen te verbeteren, maar neem de waarden meer met een korreltje zout.

  1. Is er sprake van een normale verdeling?

Kijk goed naar de schaal van de frequentieverdeling. Begint deze bij de laagst mogelijke score en eindigt hij bij de hoogst mogelijke score? Kan de student bijvoorbeeld een cijfer halen tussen de 1 en 10 voor zijn toets, dan moet de schaal beginnen bij 1 en eindigen bij 10. RemindoToets past de schaal automatisch aan naar de behaalde scores (zodat het inzichtelijk blijft) en deze kan dus verschillen. Als de schaal klopt en de grafiek laat een normale verdeling zien, dan kun je met vertrouwen de rest van de analysewaarden bekijken.

De grafiek kan een afwijking naar rechts laten zien. Dan kun je de conclusie trekken dat de toets te makkelijk is geweest (dit is natuurlijk pas de conclusie als er sprake is van meer dan 100 kandidaten). Maar dit hoeft niet altijd het geval te zijn. Factoren in het onderwijs spelen daar uiteraard een grote rol in. Is er bijvoorbeeld een strenge intake geweest voorafgaand aan de opleiding of wordt er veel tijd besteed aan examentraining, dan mag je een hogere score verwachten.

Wanneer de grafiek afwijkt naar links, kan de toets te moeilijk zijn geweest. Natuurlijk is het hier ook belangrijk dat je de context waarin de toets is afgenomen goed meeweegt. Hoe is het onderwijs verlopen? Wat waren de omstandigheden tijdens de toets? Zijn er specifieke kenmerken te noemen over de kandidaten die de toets hebben gemaakt? Welke rol heeft de toets in de gehele opleiding van de kandidaten? Al deze zaken spelen een rol wanneer je de analyse bekijkt.

  1. Hoe betrouwbaar is de toets volgens Cronbachs alfa?

Bij een Cronbachs alfa die lager is dan 0,6 kun je de conclusie trekken dat het resultaat van de toets weinig betrouwbaar is (afhankelijk van het antwoord op de vorige vragen). De betrouwbaarheid kun je vergroten door de vragen te verbeteren. Maar het kan er ook op duiden dat de toets bijvoorbeeld uit te weinig vragen bestaat. Wanneer je het aantal vragen in de toets vergroot, zal de Cronbachs alfa toenemen.

  1. Wat zijn dubieuze vragen?

Vervolgens kijk je naar de vragen. RemindoToets markeert een aantal vragen die afwijkende waarden laten zien. Allereerst kijk je naar de p’- en de rir-waarden. Welke vragen worden slecht beantwoord (p’-waarde)? En hoe is het gesteld met de rir-waarde van deze vragen? Negatieve rir-waarden en lage p-waarden vragen altijd om aandacht. Kun je een oorzaak vinden? Het kan bijvoorbeeld voorkomen dat het antwoordmodel niet juist is of dat de vraag op meerdere manieren te interpreteren is. Of misschien moeten er toch meer antwoordopties goed gerekend worden. Wanneer je kijkt naar de rir-waarden, kun je met behulp van de interactie-analyse van RemindoToets ook direct de a- en rar-waarden bekijken. Zo zie je welke antwoordopties vaak gekozen zijn. En kun je een mogelijke oorzaak van de afwijkende waarden vinden.

Direct repareren

Een goede kwaliteitscontrole op de toets vindt liever voorafgaand aan de afname plaats. Toch kunnen door de afname achteraf onvoorziene fouten in toetsen opduiken. De toetsanalyse is daarvoor een ideale methode. Het is altijd belangrijk om kritisch naar de toets te kijken en vragen regelmatig te verbeteren. Ook wanneer de waarden binnen de normen vallen, kun je achteraf vaak veel verbeteren aan de vragen. Analyse van de afname geeft vaak veel meer inzicht in de kwaliteit van de toets.

Daarnaast is er een aantal aanwijzingen uit de toetsanalyse die om directe reparatie vragen. Hier volgt een aantal voorbeelden:

  1. Vragen waarbij je tot de conclusie komt dat het antwoordmodel onjuist is. Dit kun je achteraf in RemindoToets eenvoudig aanpassen en ook voor de al afgenomen toetsen herstellen.
  2. Vragen die studenten bewust of onbewust op het verkeerde been zetten, de zogenaamde strikvragen, zijn niet wenselijk in een toets. Je wilt per slot van rekening meten of de kandidaat aan de toetscriteria voldoet en niet bewust naar een verkeerd antwoord leiden. Strikvragen ontdek je door afwijkende rit- en rar-waarden. Deze vragen kun je achteraf uit de toets halen en niet laten meetellen in het eindresultaat. Vragen uit de toets halen kun je niet onbeperkt doen, dit heeft namelijk direct effect op de betrouwbaarheid van de toets.
  3. Als p’-waarden van veel vragen erg laag zijn, zie je dit waarschijnlijk ook terug in het slagingspercentage. Afhankelijk van het toetsbeleid van de organisatie kan dit betekenen dat de cesuur achteraf nog wordt aangepast. Toch hoeft dat niet altijd nodig te zijn. Bepaal altijd kritisch of je meer mensen een voldoende wilt laten behalen door de cesuur lager in te stellen.
  4. Vragen met een p’-waarde van (bijna) 1. Dat betekent dat (bijna) iedereen deze vraag juist heeft beantwoord. Was hij dan niet veel te makkelijk? Je zou kunnen zeggen dat deze vraag in ieder geval geen functie heeft gehad in de toets. Je zou ook tot de conclusie kunnen komen dat het onderwijs op dit onderwerp goed is geweest. Afhankelijk van de situatie kan het tot een reparatie leiden, maar dat hoeft niet.

Het vervolg

Een goede toetsanalyse leidt vaak tot onderwerpen of aandachtspunten die op systematische wijze geëvalueerd moeten worden. De lengte van de toetsen, de wijze waarop toetsen worden afgenomen, de rol die een specifieke toets in een heel toetsplan heeft, ze kunnen allemaal ter discussie staan na een goede toetsanalyse.

Merk je iets op tijdens het analyseren van de toets, dan is het aan te bevelen om hierover aantekeningen te maken. Zodat je later concreet suggesties kunt doen voor het structureel verbeteren van de examinering binnen de organisatie.

Waar kun je de analysegegevens vinden in RemindoToets?

RemindoToets kent twee omgevingen: de beheeromgeving (waarin de inhoud van de toets wordt gemaakt en beheerd) en één of meer afnameomgevingen (waar de toets wordt gepland en afgenomen). In beide omgevingen vind je na de afname analysegegevens.

Afname-omgeving:

In de afname-omgeving vind je de toetsanalyse in het menu onder ‘Resultaten’ en ‘Analyses’. In deze omgeving kun je de analyse op verschillende manieren zichtbaar maken: de analyse van de gehele toetsmatrijs, van een specifiek toetsmoment en van papieren toetsresultaten.

Beheeromgeving:

In de beheeromgeving kun je de toetsanalyse bekijken van de toetsmatrijs. Dat kan interessant zijn wanneer je de toets verstrekt aan verschillende afname-omgevingen. Je klikt dan op de betreffende matrijs en kiest voor het tabblad ’Statistieken’. Dan kun je de keuze maken om de analyse te bekijken van de vragen die tijdens de laatste afname zijn gebruikt of een aangepaste analyse (van eerdere afname-momenten). In de beheeromgeving kun je er ook voor kiezen om de vraagindices te bekijken per vraag. Je gaat dan via ‘Beheer inhoud’ naar de specifieke vraag en klikt daar vervolgens op het tabblad ‘Statistieken’ bij elke vraag.

Wij wensen je veel succes bij het analyseren van de toetsresultaten.

One thought on “Toetsanalyse in RemindoToets

Comments are closed.