Wanneer we Marijke beoordelen op klantgericht werken met behulp van 360 graden feedback, zien we het volgende resultaat: Marijke beoordeelt zichzelf met een 3, haar manager geeft haar een 2, haar directe collega een 5 en een willekeurige klant geeft haar een 4. Wie heeft dan gelijk? En wat moet je nu met zo’n oordeel als het gaat om het functioneren van Marijke op dit punt?

Voor het streven naar een groter zelfbewustzijn tijdens het werk en het eventueel wijzigen van het beeld over eigen functioneren, kan 360 graden feedback bijzonder nuttig zijn. Veel van onze klanten zetten daarom deze tool met veel plezier in. Waar verschillende mensen worden gevraagd een oordeel te geven, kom je uiteindelijk uit op verschillende visies over dezelfde eigenschap, zoals klantgericht werken. De beoordeling lijkt daarmee weinig consistent.

Beoordelingen van anderen

Toch hebben alle respondenten wel geprobeerd eerlijk te oordelen, maar is er vanuit verschillende type respondenten dus kennelijk sprake van een andere visie over ‘klantgericht werken’. Onderzoek laat zien dat dit meestal gaat over wat zij vinden dat in een beoordeling moet worden meegenomen. Zo blijkt dat managers meer oordelen op basis van succes, promotie en algehele effectiviteit. Collega’s vinden over het algemeen contact en samenwerking belangrijk. Klanten beoordelen meestal op basis van vriendelijkheid en kwaliteit. Dit is juist een mooie kwaliteit van 360 graden feedback: het oordeel over ‘klantgericht werken’ komt op deze manier vanuit verschillende gezichtspunten. Maar omdat ze moeilijk te verbinden zijn met elkaar kun je aan het einde heel moeilijk een conclusie trekken over de mate waarin Marijke klantgericht werkt.

Zelfbeoordeling

Daarnaast is de zelfbeoordeling ook niet vrij van subjectiviteit. Onderzoek laat zien dat sommigen de neiging hebben zichzelf over te waarderen. Hier is vaker sprake van wanneer iemand op dit punt ondermaats presteert. Andersom is hetzelfde aan de hand. Hoge presteerders hebben de neiging zichzelf onder te waarderen. Dus wanneer Marijke heel slecht is in klantgericht werken, is ze eerder geneigd zichzelf hiervoor een hoger oordeel te geven. Wanneer ze dit juist heel goed kan, zal ze zichzelf een lagere beoordeling geven. Je zou denken dat dit wellicht een semi-bewuste keuze is. Om te verbloemen dat je misschien niet capabel bent of om te proberen om bescheiden te blijven. Dat hoeft niet zo te zijn. Vaak worden competenties die je heel goed beheerst door jezelf als heel gewoon beschouwd. Je hoeft er geen moeite voor te doen, dus stelt het niet veel voor. Daar kan de lagere beoordeling vandaan komen. Mensen zijn sterker geneigd zichzelf in het midden te plaatsen van de scoreschaal.

Wat te doen als je met die verschillende beoordelingen tot een persoonlijk ontwikkelplan moet komen en je vindt dat Marijke zich vooral moet ontwikkelen op ‘klantgericht werken’? Wanneer er een dergelijk gevolg vanaf hangt, is een niet-consistente beoordeling heel storend. Instappen in een ontwikkelingstraject wordt bij dit soort beoordelingen veel minder makkelijk geaccepteerd door medewerkers.

De feedbackbespreking speelt dan een cruciale rol. De verschillende beoordelingen zullen in dit gesprek aan de orde moeten komen. Er wordt vastgesteld waar de verschillen liggen en gezamenlijk gezocht naar een oorzaak hiervoor. Vervolgens kom je tot conclusies over de ontwikkeling van Marijke.

In het algemeen worden beoordelingsinstrumenten waarin meerdere beoordelaars betrokken worden (multi rater-instrumenten) in onderzoek hooggewaardeerd. Het geeft een beeld over het functioneren van medewerkers. Zelf als er geen consistent oordeel uitkomt, geeft het behoorlijk wat informatie die ingebracht kan worden in een ontwikkelgesprek.


Bij gesloten vragen hebben kandidaten de kans om het juiste antwoord te raden. Het juiste antwoord is namelijk ergens te vinden, of het nu in een antwoordalternatief (meerkeuzevraag), in een combinatie (sorteervraag) of ergens op de afbeelding (hotspotvraag) is. Deze raadkans is een doorn in het oog van alle exameninstellingen. Je weet namelijk nooit zeker in hoeverre de score van de kandidaat een weergave is van zijn kennis of van zijn geluk. De enige manier om van die raadkans af te komen, is het overstappen op open vraagtypen en dat is natuurlijk niet altijd wenselijk. Daarom kan de score van de kandidaat gecorrigeerd worden voor raden.

Raadkans heeft te maken met het normeren van een toets. Uit een toets komen toetsscores. Toetsscores hebben op zichzelf geen betekenis. Door een toets te normeren, krijgen toetsscores pas betekenis. Dat normeren doe je wanneer je de cesuur bepaalt: de grens tussen zakken en slagen.

Een toets levert vrijwel altijd scores op, maar de betekenis die je geeft aan de score, bepaalt of je meting van waarde is. Er zijn diverse methodes beschikbaar om toetsen te normeren. Veel van die methodes zijn arbeidsintensief en daarom zie je in de praktijk vaak een intuïtieve benadering van de toets en wordt de norm bepaald door de toetsmaker. Je ziet dan vaak een standaard van cesuur op 55% en vragen die allemaal 1 punt waard zijn. Raadkanscorrectie speelt met name in deze variant van normeren een grote rol.

Bij het afnemen van gesloten vragen, is er altijd sprake van een raadkans. De enige uitzondering hierop is de invulvraag, bij alle andere gesloten vragen kun je door gokken/raden punten behalen. Bij meerkeuzevragen is dat voor veel mensen heel logisch. Er is bij 4 antwoordopties 25% kans dat de kandidaat de juiste kiest, simpelweg doordat de kans 1 op 4 is. Maar ook bij andere gesloten vragen (zoals de matrixvraag, de hotspotvraag, de meervoudig-juistvraag en de matchingvraag) is er sprake van een raadkans. Of men rekening wil houden met de raadkans in de normering, wordt bepaald door de toetsmaker. Uit literatuur blijken verschillende argumenten te zijn om niet voor raadkans te corrigeren. In Nederland is het echter gebruikelijk om dit wel te doen.

We doen dat omdat we betekenis willen geven aan de toetsscores. Wanneer er sprake zou zijn van een toets met alleen open vragen, kun je na de afname zeggen: deze kandidaat beheerst zoveel procent van het inhoudsdomein. Het beheersingspercentage is dan gelijk aan de toetsscore. Bij het gebruik van gesloten vraagtypen, kun je die vergelijking vanwege de raadkans niet maken. De kandidaat heeft per slot van rekening ook alle antwoorden bij toeval juist kunnen kiezen. Hoe kun je dan betekenis geven aan zijn score? We doen dat door de score van de kandidaat te corrigeren voor de raadkans.

Raadkanscorrectie is geen ideale oplossing. Het houdt bijvoorbeeld geen rekening met de vraag of iemand écht heeft geraden. Het is een wiskundige oplossing over iets wat eigenlijk niet wiskundig is op te lossen. Je wilt namelijk weten of de kandidaat over de kennis beschikt en dat doe je niet door een formule los te laten, dan doe je door zijn antwoorden te analyseren.

Het kan namelijk zomaar zo zijn dat een kandidaat het antwoord op de vraag niet weet, maar wel zeker weet dat alternatief 3 en alternatief 4 onjuist zijn. Dan heeft hij voor die vraag (in het geval van een vierkeuzevraag) al 50% raadkans. Maar je berekening houdt rekening met 25%. Strikt gezien is zijn kennis (nog) niet voldoende. Ben je zijn score dan wel juist aan het interpreteren wanneer je rekening houdt met 25% raadkans? Door zijn beperkte kennis kan hij waarschijnlijk meer antwoorden wegstrepen dan iemand met geen kennis (waar de raadkans op is berekend).

Raadkanscorrectie gaat er dus vanuit dat een kandidaat een gesloten vraag benaderd en de kennis heeft of niet heeft. Er zit geen betekenis hiertussen. Je beheerst het of niet. Dat is op zich al niet waar. Kandidaten hebben vaak wel enige kennis over het onderwerp, maar weten het juiste antwoord dan toch net niet te kiezen. Daarnaast hoeft de kans niet 25% te zijn dat de kandidaat kiest voor het juiste antwoord, dan zouden onze vragen zo gelijkmatig beschreven moeten zijn, dat gebeurd eigenlijk nooit. Er zijn altijd antwoordalternatieven die meer aandacht trekken dan anderen.

Daarnaast is het niet zo gezegd dat een kandidaat met geen enkele kennis over het leerstofdomein wel 25% van de vragen juist gaat beantwoorden. Het is immers een kansberekening, maar de werkelijkheid laat vaak iets anders zien.

En toch doen we het zo, omdat er in het geval van intuïtieve normering één van de weinige ingrepen zijn die je kunt doen om de score meer betekenis te geven.

Als het gaat om raadkanscorrectie zijn er drie manieren:

  1. Correctie voor raden

Willekeurig raden is funest voor de validiteit van de score-interpretatie. In deze methode is alles er vooral op gericht om kandidaten ervan te weerhouden om willekeurig te raden, wanneer ze de vraag niet met zekerheid kunnen beantwoorden. Het is een actie die gericht is op het gedrag van de kandidaat.

Voor een fout antwoord wordt de kandidaat bestraft (1 punt aftrek), voor een goed antwoord beloond (1 punt) en wanneer de kandidaat het juiste antwoord niet zeker weet, kiest hij voor ik-weet-het-niet en heeft het geen effect (0 punten).

Er zijn veel nadelen aan deze methode. Een fout antwoord komt niet altijd voort uit het willekeurig gokken. Het kan ook zijn dat een kandidaat wel enige kennis hebt over dit onderwerp, maar nu net deze toepassing verkeerd heeft begrepen. Het kan ook zijn dat hij zich echt teveel heeft laten afleiden door de afleiders in de vraag.

Verder is het vreemd om een kandidaat een strafpunt te geven voor een fout antwoord (kennelijk weet hij het juiste antwoord niet) en ook voor een ik-weet-het-niet-antwoord. In beide gevallen weet hij het juiste antwoord niet, maar voor de ene wordt hij bestraft en de andere telt niet mee.

Het grootste nadeel van deze methode is in meerdere onderzoeken aangetoond en gaat over het bevoordelen van specifieke kandidaten ten opzichte van andere kandidaten. Dat komt voort uit het feit dat er een antwoordstrategie nodig is bij het beantwoorden van dergelijke vragen. Naast het feit dat een kandidaat de vraag moet beantwoorden, moet hij er ook over nadenken hoe zeker hij is van zijn antwoord. Onderzoek laat zien dat dit leidt tot grote verschillen tussen voorzichtige kandidaten (die snel kiezen voor weet-niet antwoorden) en (vaak mannelijke) risiconemers. De risiconemers kwamen er in alle gevallen beter vanaf.

Deze raadkans-methode maakt een toets multi-dimensionaal. Je meet niet alleen de kennis van de kandidaat, maar ook zaken als beslisvaardigheid, risico nemen, strategisch inzicht. Dat bevordert de validiteit van je beslissing niet.

Daarom zie je in de praktijk deze methode niet vaak terug.

  1. Gedwongen raden

In de praktijk zie je meestal de methode ‘gedwongen raden’ terug. De methode dankt zijn titel aan de instructie die kandidaten krijgen wanneer ze een toets maken met deze raadkanscorrectie. Die instructie luidt: geef altijd een antwoord, ook als je het niet weet. Ze worden dus gedwongen om te raden als ze niet goed antwoord kunnen geven op de vraag.

In deze methode wordt berekend hoeveel punten een kandidaat zou hebben als hij ‘blind’ zou gokken op basis van aantal antwoordalternatieven (of scoregebieden in andere gesloten vragen). De scores die vallen binnen dit gok-bereik wordt bestempeld als niet-betekenisvol. En dus adviseren ze om pas boven deze grens de scores om te rekenen naar cijfers. Een aantal scorepunten dat precies op deze grens ligt, levert dan 0 punten op (en alle scores onder deze grensscore ook). De cesuur ligt dan in het scorebereik tussen de gecorrigeerde score en de maximale score.

De normering ziet er dan als volgt uit:

 

Wanneer je de raadkanscorrectie aanzet in RemindoToets is dit de methode die wordt toegepast.

  1. Opnemen in normering

Wanneer we in onze normering inhoudelijk rekening houden met de raadkans, dan wordt deze opgenomen in de cesuurbepaling. Dat gebeurt bijvoorbeeld bij normeringsmethoden zoals de Angoff methode, zie voor meer informatie ons artikel over Normeren in RemindoToets. Deskundigen nemen in hun advies voor het vastleggen van de grens tussen zakken en slagen, de raadkans mee. Je ziet dat in de praktijk de cesuurgrens verder ligt dan de gebruikelijke 55%. Een voorbeeld hiervan, zie je in deze afbeelding.

Welke methode je kiest voor het corrigeren van de score vanwege raadkans is vaak afhankelijk van het doel en de opzet van je toets. Wil je daar hulp bij, aarzel niet om het ons te vragen. We denken graag met je mee.


We zijn trots op de nieuwe functionaliteiten die de afgelopen maanden zijn ontwikkeld voor RemindoToets. Afgelopen zaterdag, 4 mei zijn deze middels release 19-1 beschikbaar gekomen voor alle RemindoToets gebruikers. 

Naast de diverse optimalisaties, bevat deze release een aantal mooie, nieuwe toevoegingen.

Een greep uit de toevoegingen:

  • In de beheeromgeving is het nu mogelijk om op basis van de bestaande vraagtypes, vraagsjablonen aan te maken. Denk hierbij bijvoorbeeld aan een standaardsjabloon voor ‘Ja/Nee vragen’ of een meerkeuzevraag met drie antwoordopties welke nooit gehusseld mogen worden. Deze standaardsjablonen kunnen vervolgens ook door andere gebruikers binnen de omgeving worden gebruikt.
  • Er is een workflow toegevoegd rondom het proces van het ontwikkelen en goedkeuren/vaststellen van een toets(matrijs). Er bestond al een ‘Goedkeuring’ voor toetsen/toetsmatrijzen, maar aan dit proces zijn meerdere stappen toegevoegd en komt nu overeen met het ontwikkel- en goedkeuringsproces van vragen. Daarnaast is de nieuwe rol van ‘Vaststeller’ toegevoegd, bijvoorbeeld voor het enkel vaststellen van een toetsmatrijs.
  • Er zijn diverse uitbreidingen aan de toetsmatrix gedaan. De toetsmatrix is nu ook als dynamische toets te gebruiken en het is bijvoorbeeld mogelijk om op basis van de toetsmatrix lege vragen aan de vragenbank toe te voegen, op basis van de ingestelde leerdoelen en criteria. Deze lege vragen zijn dan meteen aan de juiste categorie en eventueel aan de juiste vraageigenschappen gekoppeld.
  • Bij het afnemen van toetsen waarin media wordt gebruikt, is het mogelijk om het aantal keer dat een mediabestand kan worden afgespeeld door de deelnemer, te limiteren  Hierdoor kan een kandidaat een videobestand bijvoorbeeld maar 2 keer bekijken en wordt deze daarna geblokkeerd. Daarnaast kan een kandidaat tijdens de toets in casusteksten tekst markeren met verschillende kleuren en er opmerkingen bij plaatsen.
  • Bij oefeningen en oefentoetsen met open vragen is het nu mogelijk dat de kandidaat deze zelf nakijkt. Dit is ook te combineren met een correctieronde, welke door een corrector nagekeken moet worden.
  • De nakijkpagina is voorzien van paginering, markeringsopties en filters, waardoor de corrector makkelijk kan wisselen naar kandidaten die nog niet zijn nagekeken en/of waar hij/zij een markering bij heeft geplaatst.
  • De corrector heeft tijdens het nakijken de optie gekregen, om eerder gebruikte feedback in het tekstveld bij de ene kandidaat, eenvoudig te kunnen hergebruiken bij het nakijken van de resultaten van andere kandidaten, om zo sneller en efficiënter soortgelijke feedback te kunnen geven.
  • Nadat de toetsen zijn afgenomen en de resultaten bekend zijn, bevat de analyse nu naast de cronbach’s alpha ook de ‘standaard meetfout’, om een idee te krijgen over de betrouwbaarheid van de toets.

Ben je benieuwd naar de volledige Release Notes, of wil je meer weten over RemindoToets, neem dan vooral even contact met ons op!


Op 16 april werd na een uitgebreide aanbesteding een overeenkomst getekend tussen directeuren van de Hogeschool Arnhem Nijmegen (HAN) en Paragin. Onderwerp van de schoolbrede aanbesteding was het contracteren van een online inlever- en beoordelingsplatform voor summatieve toetsproducten. Het platform van Paragin bleek na een gedegen proces de beste oplossing.

Vanaf september 2019 starten de eerste 8.000 studenten verdeeld over 16 opleidingen, met de nieuwe inlever- en beoordelingsapplicatie. Vervolgens zullen later in het schooljaar de overige 22.000 studenten en alle opleidingen van de HAN ermee aan de slag gaan. Binnen de applicatie kunnen individuele en groepsproducten ingeleverd worden door studenten, welke door één of meerdere beoordelaars beoordeeld kunnen worden. De applicatie biedt uitgebreide feedbackmogelijkheden, beoordelaars zien een duidelijk overzicht van de te beoordelen producten en krijgen inzicht in de voortgang van de studenten. Daarnaast zijn er koppelingen gemaakt met onder meer de plagiaatsoftware SimCheck van Turnitin en het studentinformatiesysteem Aluris.

Hogeschool Arnhem Nijmegen en Paragin werken al langer samen binnen verschillende Paragin-producten, onder meer voor peerfeedback, beoordelen en archivering. We zijn blij om ook te kunnen ondersteunen bij het inleveren en beoordelen van sunmmatieve toetsproducten!


Soms is hij lid van een examencommissie, andere keren is hij de externe betrokkene, de inhoudsdeskundige of iemand die steeds een andere pet op heeft: de vaststeller. Het lijkt in het hele toetsproces soms een functie die een formaliteit afhandelt. Maar niets is minder waar. Zonder vaststeller, geen examenkwaliteit.

Wanneer het vaststellen een formele stap is in de totstandkoming van een examen, dan gebeurt dit vaak op twee momenten tijdens het examenproces:

  1. Het vaststellen van de toets

Het vaststellen van de toets gebeurt voor de toetsafname. Hier kijkt de vaststeller of de toets voldoet aan de kwaliteitscriteria die zijn gesteld. Wanneer de toets is goedgekeurd dan wordt deze vastgesteld, en kan de toets daadwerkelijk afgenomen worden.

  1. Het vaststellen van de toetsresultaten

Na de afname worden de toetsresultaten geanalyseerd. Dan wordt op basis van de toetsresultaten gekeken, in welke mate een valide en betrouwbare beslissing genomen kan worden.  Als dit binnen de gestelde kwaliteitsgrenzen ligt, kunnen de toetsresultaten vastgesteld worden. Soms hebben de kandidaten al een voorlopige uitslag gekregen, welke dan definitief wordt gemaakt.

Om een toets vast te stellen beoordeelt de vaststeller of de toets voldoet aan de kwaliteitscriteria. De school of de examencommissie stelt deze kwaliteitscriteria meestal vast in het toetsbeleid, of in losse documenten die gaan over de examenorganisatie. De school kan daarbij rekening houden met de context waarin wordt gewerkt. Zo kan de invloed van de school op de toetsing veel minder zijn, wanneer examens worden ingekocht of wanneer er onderwijs wordt gegeven in een vakgebied dat zich nu eenmaal moeilijk laat toetsen. Dat zie je terug in mildere kwaliteitscriteria.

In de praktijk zie je meestal de volgende kwaliteitscriteria terugkomen, die de vaststeller bij de hand houdt om te beslissen of het examen kan worden vastgesteld:

  • Past de toetsvorm en -inhoud bij de leerdoelen?

Om een vak te toetsen worden vooraf leerdoelen opgesteld, die soms nog worden vertaald naar toetscriteria. Zowel de docent die de inhoud van de lessen verzorgt als de toetsmaker moeten zich houden aan deze leerdoelen. Daarmee voorkom je dat de inhoud van de toets niet herkend wordt door de studenten. Dat betekent dat de vragen die in een toets worden gesteld, moeten passen bij de leerdoelen waar deze toets over gaat.

De toetsvorm speelt hierbij ook een grote rol. Als de student aan het einde van de opleiding een vogelhuisje moet kunnen timmeren, dan kun je dat niet toetsen met een theorie-examen. Dat klinkt heel logisch, maar in de praktijk blijkt er door allerlei praktische redenen niet altijd een goede toetsvorm te worden gekozen.

  • Is de toetssamenstelling representatief, eerlijk en heeft het een passende omvang?

De vaststeller duikt in de inhoud. De vragen moeten inhoudelijk passen bij de leerdoelen, maar ook van een goed niveau zijn. Wanneer van studenten wordt verwacht dat ze theorie moeten kunnen toepassen in een praktijksituatie, dan kan niet het hele examen bestaan uit kennisvragen. Dan zou je op zijn minst bijvoorbeeld enkele casusvragen, het maken van berekeningen of het toepassen van kennis willen terugzien. Dat betekent dat de vaststeller controleert of de vragen representatief zijn qua inhoud en niveau, als hij kijkt naar de leerdoelen.

Daarnaast wil de vaststeller zien dat de toets eerlijk is voor alle studenten in de doelgroep. Dat betekent dat de vragen in de toets geen studenten voortrekken. Dat zie je bijvoorbeeld nog wel eens gebeuren wanneer herkansingsexamens eenvoudiger zijn dan de eerste-kans-examens. De herkansers krijgen hiermee een voordeligere situatie en dat is niet wenselijk. Ook kan een toets ongemerkt jongens, meisjes of studenten met een andere etnische afkomst bevoor- of benadelen. Wanneer een casus ingaat op de transfersituatie van de voetballers van een specifieke voetbalclub en daar 10 vragen over stelt, dan beoordeelt de vaststeller of dit voor ongelijkheid van toetsing zorgt.

Daarnaast is het belangrijk dat een toets een passende lengte heeft. Een te korte toets kan moeilijk meten of de leerdoelen echt zijn behaald. Een te lange toets kan ervoor zorgen dat een student in tijdnood komt, waardoor je ook niet meet of de leerdoelen zijn behaald. Past deze toets binnen de beschikbare tijd?

  • Is voldaan aan alle afspraken?

De vaststeller kan tot slot controleren of er met betrekking tot deze toets is voldaan aan alle afspraken die zijn gemaakt rondom de toetsontwikkeling en -afname. Je kunt hierbij denken aan vragen als:

  • Is de normering op een juiste manier tot stand gekomen?
  • Heeft een inhoudelijk deskundige deze toets beoordeeld en wat was zijn oordeel?
  • Krijgt de student voldoende instructies (toegestane hulpmiddelen, duur en omvang)?

Als alle vragen zijn beantwoord en het beeld van de vaststeller is positief, dan kan de toets worden afgenomen. Helaas is het gevaar dan nog niet geweken. Tijdens de afname kan er van alles gebeuren waarmee we de student een eerlijke toetsing ontnemen. In ieder geval is er dan aan de voorkant alles gedaan om dit te voorkomen.

Na afloop wordt de toets geanalyseerd. Hierbij komt de vaststeller weer in actie. Kunnen we op basis van deze toetsresultaten een valide en betrouwbaar oordeel geven? Dan zullen de resultaten worden vastgesteld en kan de cyclus opnieuw beginnen.

In de nieuwe release van RemindoToets heeft de vaststeller zijn eigen gebruikersrol gekregen. De vaststeller kan daarmee in RemindoToets de toetsmatrijzen die voor hem beschikbaar zijn vaststellen. Op zaterdag 4 mei 2019 is de nieuwe release met de rol van de vaststeller erin, uitgerold en online beschikbaar gekomen.


Steeds meer onderwijsinstellingen werken aan de 21e-eeuwse vaardigheden van hun studenten. Deze vaardigheden zouden de studenten moeten bezitten om succesvol deel te nemen aan de arbeidsmarkt en maatschappij. Om je als student te kunnen ontwikkelen in deze vaardigheden, is het goed om inzicht te krijgen waar je nu staat en waar je je in kan en wilt ontwikkelen. KOMPAS21 helpt studenten inzicht te krijgen in hun 21e-eeuwse vaardigheden en laat net als een echt kompas zien waar je nu staat en waar je heen wilt.

KOMPAS21 (Kennis Over Mijn Persoonlijke Attitudes en Skills21) is een project waarbij CINOP-ecbo en ROC Friese Poort samen met 11 andere mbo-instellingen en Paragin aan een nieuw (digitaal) instrument werken. Paragin heeft Pieter Baay, projectleider van KOMPAS21 namens CINOP-ecbo, een aantal vragen gesteld over KOMPAS21 om de lezers van de Paragin Update een kijkje te geven in de ontwikkeling van KOMPAS21.

Hoe is KOMPAS21 ontstaan?

“Begin 2017 troffen de bestuurder van ROC Friese Poort en ik elkaar. ROC Friese Poort was vanuit haar visie op Brede Vorming innovatieve ideeën aan het uitwerken rondom 21ste-eeuwse vaardigheden en zij wilden daarvoor graag een reflectie-instrument. Voor vaardigheden als kritisch denken, ondernemendheid en sociale- en culturele vaardigheden. We wisten meteen: dat gaan we niet voor elke school apart doen. Heel snel hebben we toen andere mbo-instellingen benaderd en hadden we een groep bij elkaar. Samen financierden zij de ontwikkeling van het instrument en vormden we de projectgroep die er anderhalf jaar aan zouden werken.”

Waar staat KOMPAS21 eigenlijk voor?

“KOMPAS21 staat voor het symbool van een kompas, waarmee je je huidige locatie en toekomstige richting kunt ontdekken. Het staat ook voor Kennis Over Mijn Persoonlijke Attitudes en Skills21. Je leert jouw vaardigheden en attitudes kennen. 21ste-eeuwse vaardigheden zijn namelijk een mix van kennis, vaardigheden, attitudes, waarden en ethiek; die proberen we te vangen in het instrument.”

Wie is de doelgroep?

“Het instrument richt zich in eerste instantie op studenten. Maar als we op 2 juli fase 1 afronden, bepalen we met welke nieuwe ideeën we aan de slag gaan. Een versie voor docenten en andere onderwijsprofessionals; een versie voor het bedrijfsleven; voor voortgezet onderwijs of hoger onderwijs? We hebben al zin in de volgende stap!”

Hoe is het instrument tot stand gekomen? 

“Elke maand van 2018 stond één vaardigheid centraal. We startten telkens met literatuuronderzoek, omdat er veel bekend is over de vaardigheden. Daarna hielden we een online peiling onder studenten en docenten. Hierin legden we de belangrijkste elementen voor en vroegen we deelnemers welke elementen zij het belangrijkst vonden en hoe ze dat terugzagen in het mbo. Daarna was het tijd voor een Group Design Room: een bijeenkomst met studenten, docenten en vertegenwoordigers uit het bedrijfsleven. Zij reflecteerden op de resultaten uit de literatuur en online peiling, om zo per vaardigheid te duiden waar deze in het mbo uit bestond en welke niveaus te onderscheiden zijn. Zo kwamen we tot rubrics per vaardigheid, die we gebruikten voor het maken van het reflectie-instrument.”

Wat waren de reacties van studenten?

“We hadden een Klas21, met studenten uit de verschillende scholen. Zij maakten vlogs over de vaardigheden en dachten mee over de vaardigheden. Voor hen leuk om eens met studenten uit het hele land op te trekken en voor ons heel fijn om zo een frisse en kritische blik op onze materialen te krijgen!”

Waar staat het project nu, in mei 2019?

“Paragin doet nu de digitalisering van het instrument en die gaan we proefdraaien in de scholen. We kijken dan of studenten uit de voeten kunnen met het instrument en de terugkoppeling die het programma biedt. Na de aanpassingen, is het instrument klaar voor de lancering op 2 juli op Urk! Alle bestuurders en projectgroepleden komen dan bij elkaar om het eind van fase 1 te vieren en het vervolg in te luiden.”

Straks is de eerste versie van het instrument dus klaar. Kun je wat meer vertellen hoe dit op de scholen gaat plaatsvinden?

“De scholen hebben hierin veel keuzevrijheid en je ziet dus ook verschillen ontstaan. Van de toepassing binnen LOB-gesprekken en Burgerschapslessen tot evaluatie van de stageperiode of een excellentieprogramma; studenten gaan er op verschillende manieren mee werken. Maar er zijn ook al ideeën om het instrument te gebruiken bij professionalisering van medewerkers en zelfs bij de beoordelingsgesprekken van het management!”

Jullie willen KOMPAS21 inzetten als reflectie-instrument en niet als beoordelingsinstrument. Hoe wordt voorkomen dat docenten het instrument als beoordelingsinstrument gaan zien?

“We hebben als projectgroep inderdaad gezegd dat het een reflectie-instrument moet zijn, dat vanuit een waarderend perspectief naar mensen kijkt. Niet de onvoldoendes proberen uit te vegen, maar (ook) kijken waar mensen goed in zijn en zich verder in willen ontwikkelen. Het instrument is daarom niet zomaar te gebruiken; dat vraagt goede begeleiding. We zijn nu de training aan het ontwikkelen om het instrument te gebruiken volgens ‘de bedoeling’.”

Wat vraagt KOMPAS21 van een school (de visie van een school, het curriculum, de docent, de student)?

“We zullen de komende tijd gaan ervaren waar scholen tegenaan lopen bij het gebruik van het instrument. Vanuit veranderkunde weten we dat het niet zomaar zal landen. We kijken met de scholen hoe zij zich het verbinden aan hun onderwijsvisie, hun professionaliseringsactiviteiten en de aanknopingspunten in het curriculum. De komende jaren zullen we nog veel onderzoeks- en praktijkvragen naar voren komen hoe we hiermee verder willen!”

Wil je meer lezen over KOMPAS21, bekijk dan de website.

 

 


RemindoToets kent maar liefst 12 verschillende vraagtypen. Toch domineert vooral één vraagtype in de itembanken van onze klanten: de meerkeuzevraag. De keuze voor dit vraagtype is logisch vanuit de historie rondom toetsen en dan vooral de papieren toets-gewoonten. Waar men al wel de overstap heeft gemaakt op het digitaliseren van het toetsproces, is het overstappen naar het gebruik van verschillende vraagtypen niet zo snel gemaakt. Waarom is het slim om dit wel te overwegen? En welk vraagtype past dan het best bij de toetscriteria?

Op basis van een vergelijking van de drie grootste itembanken in RemindoToets (in totaal 276.760 vragen) zien we dat maar liefst 69% van de vragen een meerkeuzevraag is. De invulvraag (15%) en de open vraag (14%) staan op de tweede en derde plaats in de ranglijst.

Verdeling vraagtypen uit de drie grootste itembanken (totaal: 276.760 vragen). In dit overzicht worden zowel de ‘een-uit-meervraag’ en de ‘meer-uit-meervraag’ als meerkeuzevraag beschouwd en zowel de uploadvraag als de samengestelde vraag zijn achterwege gelaten.

Wanneer een organisatie de toetsen afneemt op papier is de keuze voor een meerkeuzevraag heel begrijpelijk. We toetsen veel en bij grotere aantallen kandidaten is het heel belangrijk dat er snel beoordeeld kan worden. Daar leent een meerkeuzevraag zich uitstekend voor.

Wanneer er wordt overgegaan op digitale toetsing komt er een heel spectrum aan vraagtypen ter beschikking. Dan is het kiezen voor een meerkeuzevraag een stuk minder logisch. Mede omdat het beoordelen digitaal ook bij andere (gesloten) vraagtypen geautomatiseerd gebeurt. De belangrijkste bezwaren die we horen als het gaat om het eventueel overstappen naar een ander vraagtype zijn:

  1. Het wordt voor de kandidaat heel verwarrend als we meerdere vraagtypen gaan gebruiken in één toets.
  2. We nemen al jaren deze toets af in deze vorm (bijvoorbeeld 60 meerkeuzevragen). We moeten kandidaten wel toetsen blijven aanbieden van dezelfde moeilijkheidsgraad.

In 2009 deden Draaijer en Van den Bos onderzoek naar het gebruik van verschillende vraagtypen. Dit onderzoek werd uitgevoerd onder derdejaars studenten van de opleiding ‘Voeding en Spijsvertering’. In het onderzoek werd de studenten een examen aangeboden met daarin de gebruikelijke 56 meerkeuzevragen en daarbij 22 vragen van een ander vraagtype. Hiervoor werden de matrixvraag, de drag & dropvraag en de meervoudig-juistvraag gebruikt. Daarna werden de psychometrische gegevens van de toetsresultaten bekeken en kregen de kandidaten nog een aantal vragen over hun ervaring met dit nieuwe examen.

De kandidaten reageerden verrassend enthousiast over de variatie in vraagtypen. Ze gaven daarbij aan: “Leuk en uitdagend, ik werd gedwongen beter na te denken.”

De psychometrische gegevens gaven daarnaast ook een positief beeld van de ‘alternatieve’ vraagtypen.

  • Een toets die zou bestaan uit alleen de 56 meerkeuzevragen gaf een gemiddelde rit-waarde van 0,21.
  • Een toets die zou bestaan uit alleen ‘alternatieve’ vraagtypen gaf een gemiddelde rit-waarde van 0,34.

Daarmee maakt de toets met alternatieve vraagtypen dus een beter onderscheid tussen de kandidaten die de leerstof wel, en kandidaten die de leerstof niet beheersen.

Daarnaast had het gebruik van de ‘alternatieve’ vraagtypen effect op het slagingspercentage.

  • Voor een toets met alleen de meerkeuzevragen zou 61% van de kandidaten zijn geslaagd.
  • Voor een toets met alleen de ‘alternatieve’ vraagtypen zou 77% van de kandidaten zijn geslaagd.

Wanneer we terugkijken naar de veelgehoorde bezwaren van het overstappen naar een ander vraagtype, laat dit onderzoek zien dat het voor kandidaten helemaal niet zo verwarrend heeft gewerkt.

Over de moeilijkheidsgraad valt er op basis van dit onderzoek geen duidelijke conclusie te trekken. We zien dat er meer mensen slagen met de alternatieve vraagtypen. Dat kan komen omdat het examen hierdoor makkelijker is geworden. Maar aannemelijker is het dat we met behulp van de alternatieve vraagtypen beter hebben kunnen meten wat we wilden meten, de toetsanalyse geeft namelijk betere resultaten.

Dit onderzoek geeft dus aan dat de aarzeling met betrekking tot de verschillende vraagtypen niet nodig is. Het levert juist veel voordelen op als het gaat om de betrouwbaarheid en validiteit van de beslissingen die je neemt op basis van de toetsresultaten.

Hoe pak je dit dan aan?

Het kiezen van een passend vraagtype is net zo belangrijk als andere onderdelen van de toetsontwikkeling. Je zult merken dat door het juiste vraagtype in te zetten, de vraag beter geformuleerd kan worden en echt gemeten kan worden wat je wilde meten.

Om je hierbij te ondersteunen hebben we een hulpdocument geschreven. Daarop vind je een overzicht van werkwoorden. Op basis van deze werkwoorden is aangegeven welk vraagtype hier logischerwijs bij zou passen. Je kunt dit document leggen naast je toetscriteria en voorafgaand aan het ontwikkelen van het examen al bedenken: welke vraagtypen ga ik gebruiken?

Naast het kiezen van een vraagtype dat past bij je toetscriterium zijn er ook andere factoren van belang die samenhangen met het vraagtype dat je kiest. Zo hebben we niet voor niets jarenlang allerlei toetscriteria proberen te toetsen met meerkeuzevragen. Je wilt natuurlijk een betrouwbare en valide oordeel vellen over je kandidaten, maar het is heel begrijpelijk om ook aan bijvoorbeeld de organisatiefactoren te denken. Kun je het wel bolwerken om meer open vragen te stellen?

Hier bieden we je een checklist aan waarop een aantal van die factoren beschreven staan. Als je kijkt naar de meerkeuzevraag als vraagtype zie je bijvoorbeeld:

  • Dat hij meerdere cognitieve niveaus kan toetsen (hoewel ze vaker gericht zijn op lagere orde denkvaardigheden).
  • Dat hij door kandidaten snel te beantwoorden is, zodat je veel vragen kunt stellen in één examen en daarmee een heel groot deel van je leerstofdomein kunt bevragen.
  • Dat hij lastig is om te ontwikkelen. Goede afleiders bedenken is een hele klus en lukt niet altijd.
  • Dat kandidaten een raadkans hebben op deze vraag, waarmee een deel van de scoring betekenisloos wordt.
  • Je kunt er niet bij bluffen, zoals je dat wel kan in open vragen. Bluffen houdt in dat kandidaten niet precies het antwoord geven op de vraag, maar wel veel andere informatie waardoor je geneigd bent als beoordelaar om (enkele) punten toe te kennen.
  • Hij biedt wat informatie over denkfouten die kandidaten maken. Je kunt bijvoorbeeld zien voor welke afleider vaak is gekozen. Als je dit soort informatie hebt, kun je daar je onderwijs op verbeteren.
  • De scoring van dit vraagtype wordt volledig objectief (namelijk geautomatiseerd) gedaan.

Zo zien we dat het helemaal niet vreemd is dat er vaak voor een meerkeuzevraag wordt gekozen. Andere vraagtypen kennen ook hun voor- en nadelen. De uitdaging ligt erin om een vraagtype te kiezen dat recht doet aan de leerstof en de toetscriteria die getoetst moeten worden.

Voel je vrij om verschillende vraagtypen te gebruiken. Veel succes!


Twee weken na de prijsuitreiking waar hij de Publieksprijs voor Examens won, trainde Harry Molkenboer op het kantoor van Paragin vol enthousiasme RemindoToets-gebruikers in het juist interpreteren van de toets- en itemanalyse en het bepalen van cesuur.

Tijdens de training werd, aan de hand van concrete voorbeelden uit RemindoToets, uitleg gegeven over hoe deze waarden geïnterpreteerd kunnen worden en wat de conclusie kan zijn over de kwaliteit van de vraag en de toets. Deelnemers werden uitgedaagd om beslissingen te nemen in verschillende casuïstiek.

Het boek van Harry ‘180 gevalideerde richtlijnen voor toetsen‘ was een welkome handleiding voor deze toetsanalyse. Aan de hand van voorbeelden werd stil gestaan bij de richtlijnen voor de betreffende waarde, zoals de p- en rir-waarde. Daarbij werd steeds nuance aangebracht waarbij duidelijk werd dat ook de toetsanalyse geen zwart-wit gebied betreft, maar bestaat uit verschillende grijstinten waar goed over nagedacht moet worden. Harry gaf inzage in het effect van een meetfout in de toets. Met hoeveel zekerheid kunnen we zeggen dat een oordeel over een score van een kandidaat passend is?

Deze vraag heeft ook te maken met het bepalen van cesuur. Daarbij heeft Harry verschillende cesuurmethoden uitgelegd en hierbij de voor- en nadelen besproken.

Enkele reacties van de deelnemers waren:

“Leuk om echt te oefenen met echte voorbeelden!”

“Ik wist vrijwel niets van toets- en itemanalyse en nu voel ik me een halve onderwijskundige!”

“Ik ben blij dat ik erbij was!”

Wij bedanken Harry hartelijk voor zijn enorme inzet en de enthousiaste manier waarmee hij het gecompliceerde eenvoudig en met humor weet te brengen.


Processen zijn van grote invloed op het reilen en zeilen binnen organisaties. Het is dus niet zo vreemd dat veel organisaties de behoefte hebben om hun processen te verbeteren of aan te scherpen. Hoe beter het proces, hoe efficiënter en effectiever gewerkt kan worden. Procesverbetering wordt vaak samen genoemd met digitalisering. Alsof de organisatie door het inbedden van een digitaal systeem automatisch de processen verbetert. Helaas is dat meestal niet het geval. Hoe kun je dan wel een succes maken van procesdigitalisering? 

Door het plaatsen van een bestaand proces in een digitaal systeem, plaats je eigenlijk iets ouds in een nieuw jasje. Dit kan uitstekend werken bij een oude hit die opnieuw op een nieuwe, moderne manier wordt uitgebracht. In het geval van processen en systemen op de werkvloer kunnen mensen ‘veranderingsmoe’ worden. Soms is het de zoveelste verandering op het werk en zien mensen het nut niet in van de verandering. Het is belangrijk dat digitalisering geen doel op zich is. Digitalisering kun je beter zien als een middel om een doel te bereiken. Het middel waarmee het proces wordt doorlopen verandert, maar het proces zelf niet. Is het proces niet passend of draagt het niet bij aan de effectiviteit of efficiëntie van de werkzaamheden, dan moet er dus eerst wat veranderen aan het proces.

Breng het proces eerst globaal in kaart

Het is aan te raden om eerst helder te hebben hoe het huidige proces er uit ziet. Breng samen met alle betrokkenen goed in kaart wat de exacte stappen zijn die nu doorlopen worden. Van welke persoon/personen wordt tijdens welke stap iets verwacht? Stel eerst globaal het proces op van a tot z. Je zult er dan achter komen dat een proces vaak niet op zichzelf staat, maar deel is van meerdere processen. Een inschrijving van een nieuwe klant kan op zichzelf een proces zijn met meerdere stappen, maar kan ook deel zijn van een groter proces dat loopt van inschrijving tot aan uitschrijving. Om deze processen in kaart te brengen, zou je bijvoorbeeld flowcharts kunnen gebruiken. Om het totaalplaatje niet uit het oog te verliezen, kun je het beste voorkomen dat iemand direct in detail treedt. Bijvoorbeeld de specifieke vragen die aan een klant worden gesteld tijdens de inschrijvingsprocedure, kun je het beste pas beschrijven nadat het gehele proces globaal is opgesteld.

Verbeter het proces

Vervolgens kun je als organisatie met de betrokkenen van het proces nadenken over de gewenste situatie. De directe betrokkenen weten vaak het beste waar verbetering te halen valt. Waar lopen ze tegenaan? Wat zijn onnodige stappen in het proces? Wat zijn hun behoeften? Hoe zouden ze het zelf anders zien? Op basis van deze input kun je als organisatie processen verbeteren naar de gewenste situatie. Ook creëer je op deze manier draagvlak voor het toepassen van een vernieuwd proces.

Digitalisering

Daarna komt de digitalisering pas in beeld. Paragin denkt hierover graag met je mee. Samen zoeken we naar een passende software-oplossing en evalueren we gezamenlijk of de software aansluit bij de (toekomstige) wensen en ontwikkelingen.

Het is belangrijk dat software blijft aansluiten bij een gewenst organisatieproces. Wanneer je als organisatie de behoeften van de betrokkenen continu meeneemt in procesverbetering en hiermee (meer) draagvlak creëert voor het gewenste proces, is de stap naar een passende software-oplossing om dit proces te faciliteren klein. Grote kans dat de gebruikers de software als een uitkomst voor het geoptimaliseerde proces gaan ervaren, in plaats van als een struikelblok.


De meerkeuzevraag is het favoriete vraagtype van veel onderwijs- en exameninstellingen. Het maken van dergelijke vragen is niet eenvoudig, vooral het komen tot goede afleiders (foute antwoordalternatieven) kan nogal een uitdaging zijn. Je zou daarmee kunnen pleiten voor minder antwoordalternatieven, maar daarmee vergroot je de raadkans. Wat is het optimale aantal antwoordalternatieven?

Een meerkeuzevraag kent veel voordelen. Dit vraagtype leent zich voor het toetsen van zowel lagere als hogere orde denkvaardigheden. Het zijn gesloten vragen, dus de beoordeling is behoorlijk objectief. Omdat ze snel te beantwoorden zijn, kun je veel van deze vragen in je toets plaatsen, zodat je een groot deel van de leerstof kunt toetsen. Maar dit vraagtype kent ook een groot nadeel: hij is niet eenvoudig te ontwikkelen. Vooral het bedenken van plausibele afleiders is een enorme uitdaging. Daarom wordt er al jaren onderzoek gedaan naar het optimale aantal antwoordalternatieven (het eerste onderzoek hierover stamt uit 1919).

Raadkans

Vanuit verschillende gedachten kun je deze vraag beantwoorden. Als je kijkt naar de raadkans, dan zou je kunnen pleiten voor zoveel mogelijk alternatieven. Daarmee verklein je de raadkans. Een vijfkeuzevraag heeft 20% raadkans ten opzichte van een driekeuzevraag met 33% raadkans. Een hoge raadkans zorgt ervoor dat je meer vragen nodig hebt, om te meten wat je wilt meten bij de kandidaat. Je houdt dan rekening met de kans dat de kandidaat het antwoord juist gokt, waarbij dit dus niet betekent dat hij deze kennis ook daadwerkelijk bezit.

Afleiders bedenken

De ontwikkeling van vragen met meer dan drie alternatieven is een stuk ingewikkelder, waardoor de kans bestaat dat je alternatieven toevoegt die niet geloofwaardig zijn als antwoord en die zodoende makkelijk worden weggestreept door de kandidaat. Dan kost het de kandidaat alleen meer leestijd en levert het weinig extra inzicht op. Technisch gezien houd je dan rekening met een lagere raadkans, terwijl de praktijk anders laat zien. Wanneer kandidaten één van de 4 antwoordalternatieven nooit kiest, maar je houdt in de normering rekening met een raadkans van 25%, dan heeft dat een negatief effect op de validiteit van je beslissing. Je hebt de lat dan misschien wel te laag gelegd.

Driekeuzevraag

Onderzoek (Rodriguez, 2005) laat zien dat drie alternatieven voor de meeste vakgebieden het ideale aantal alternatieven is. Rodriguez deed in 2005 een meta-analyse van 80 jaar aan onderzoek over het aantal alternatieven en concludeerde dat het terugbrengen van het aantal alternatieven over het algemeen de betrouwbaarheid van de toetsscores verlaagde, met uitzondering van één situatie. Wanneer het aantal antwoordalternatieven werd teruggebracht van 4 naar 3 alternatieven, steeg de betrouwbaarheid van de toets.

In hetzelfde onderzoek concludeerde Rodriguez dat de validiteit gelijk bleef wanneer het aantal antwoordalternatieven werd verlaagd.

De driekeuzevraag heeft een aantal voordelen, zonder daarmee de effectiviteit van de toets aan te tasten. Eén voordeel is je de kans op slechte afleiders verminderd. Slechte afleiders in vragen heeft invloed op de validiteit. Daarnaast laat de driekeuzevraag geen grote veranderingen zien in de psychometrische gegevens, als je deze vergelijkt met een vierkeuze- of vijfkeuzevraag. De statistieken laten zien dat de driekeuzevraag de p-waarde verlaagt (moeilijkheid). Dat is logisch, omdat de raadkans hoger is. Maar daarnaast verhoogt de driekeuzevraag de rit- en rir-waarde (het discriminerend vermogen) en daarmee ook de betrouwbaarheid van de toets. Een ander voordeel is dat een driekeuzevraag minder tijd kost om te beantwoorden, daarmee zou je theoretisch gezien meer vragen kunnen opnemen in de toets. Dat zorgt voor een bredere toetsing van de leerstof.

Op donderdag 14 maart aanstaande is Paragin aanwezig bij het NVE-Examencongres. We verzorgen daar een workshop over het gebruik van verschillende vraagtypen, waar de meerkeuzevraag uiteraard ook een grote rol speelt. Wil je meedenken over de voor- en nadelen van vraagtypen, kom dan naar onze workshop!

 

1 12 13 14 15 16 19