Wanneer we Marijke beoordelen op klantgericht werken met behulp van 360 graden feedback, zien we het volgende resultaat: Marijke beoordeelt zichzelf met een 3, haar manager geeft haar een 2, haar directe collega een 5 en een willekeurige klant geeft haar een 4. Wie heeft dan gelijk? En wat moet je nu met zo’n oordeel als het gaat om het functioneren van Marijke op dit punt?

Voor het streven naar een groter zelfbewustzijn tijdens het werk en het eventueel wijzigen van het beeld over eigen functioneren, kan 360 graden feedback bijzonder nuttig zijn. Veel van onze klanten zetten daarom deze tool met veel plezier in. Waar verschillende mensen worden gevraagd een oordeel te geven, kom je uiteindelijk uit op verschillende visies over dezelfde eigenschap, zoals klantgericht werken. De beoordeling lijkt daarmee weinig consistent.

Beoordelingen van anderen

Toch hebben alle respondenten wel geprobeerd eerlijk te oordelen, maar is er vanuit verschillende type respondenten dus kennelijk sprake van een andere visie over ‘klantgericht werken’. Onderzoek laat zien dat dit meestal gaat over wat zij vinden dat in een beoordeling moet worden meegenomen. Zo blijkt dat managers meer oordelen op basis van succes, promotie en algehele effectiviteit. Collega’s vinden over het algemeen contact en samenwerking belangrijk. Klanten beoordelen meestal op basis van vriendelijkheid en kwaliteit. Dit is juist een mooie kwaliteit van 360 graden feedback: het oordeel over ‘klantgericht werken’ komt op deze manier vanuit verschillende gezichtspunten. Maar omdat ze moeilijk te verbinden zijn met elkaar kun je aan het einde heel moeilijk een conclusie trekken over de mate waarin Marijke klantgericht werkt.

Zelfbeoordeling

Daarnaast is de zelfbeoordeling ook niet vrij van subjectiviteit. Onderzoek laat zien dat sommigen de neiging hebben zichzelf over te waarderen. Hier is vaker sprake van wanneer iemand op dit punt ondermaats presteert. Andersom is hetzelfde aan de hand. Hoge presteerders hebben de neiging zichzelf onder te waarderen. Dus wanneer Marijke heel slecht is in klantgericht werken, is ze eerder geneigd zichzelf hiervoor een hoger oordeel te geven. Wanneer ze dit juist heel goed kan, zal ze zichzelf een lagere beoordeling geven. Je zou denken dat dit wellicht een semi-bewuste keuze is. Om te verbloemen dat je misschien niet capabel bent of om te proberen om bescheiden te blijven. Dat hoeft niet zo te zijn. Vaak worden competenties die je heel goed beheerst door jezelf als heel gewoon beschouwd. Je hoeft er geen moeite voor te doen, dus stelt het niet veel voor. Daar kan de lagere beoordeling vandaan komen. Mensen zijn sterker geneigd zichzelf in het midden te plaatsen van de scoreschaal.

Wat te doen als je met die verschillende beoordelingen tot een persoonlijk ontwikkelplan moet komen en je vindt dat Marijke zich vooral moet ontwikkelen op ‘klantgericht werken’? Wanneer er een dergelijk gevolg vanaf hangt, is een niet-consistente beoordeling heel storend. Instappen in een ontwikkelingstraject wordt bij dit soort beoordelingen veel minder makkelijk geaccepteerd door medewerkers.

De feedbackbespreking speelt dan een cruciale rol. De verschillende beoordelingen zullen in dit gesprek aan de orde moeten komen. Er wordt vastgesteld waar de verschillen liggen en gezamenlijk gezocht naar een oorzaak hiervoor. Vervolgens kom je tot conclusies over de ontwikkeling van Marijke.

In het algemeen worden beoordelingsinstrumenten waarin meerdere beoordelaars betrokken worden (multi rater-instrumenten) in onderzoek hooggewaardeerd. Het geeft een beeld over het functioneren van medewerkers. Zelf als er geen consistent oordeel uitkomt, geeft het behoorlijk wat informatie die ingebracht kan worden in een ontwikkelgesprek.


Bij gesloten vragen hebben kandidaten de kans om het juiste antwoord te raden. Het juiste antwoord is namelijk ergens te vinden, of het nu in een antwoordalternatief (meerkeuzevraag), in een combinatie (sorteervraag) of ergens op de afbeelding (hotspotvraag) is. Deze raadkans is een doorn in het oog van alle exameninstellingen. Je weet namelijk nooit zeker in hoeverre de score van de kandidaat een weergave is van zijn kennis of van zijn geluk. De enige manier om van die raadkans af te komen, is het overstappen op open vraagtypen en dat is natuurlijk niet altijd wenselijk. Daarom kan de score van de kandidaat gecorrigeerd worden voor raden.

Raadkans heeft te maken met het normeren van een toets. Uit een toets komen toetsscores. Toetsscores hebben op zichzelf geen betekenis. Door een toets te normeren, krijgen toetsscores pas betekenis. Dat normeren doe je wanneer je de cesuur bepaalt: de grens tussen zakken en slagen.

Een toets levert vrijwel altijd scores op, maar de betekenis die je geeft aan de score, bepaalt of je meting van waarde is. Er zijn diverse methodes beschikbaar om toetsen te normeren. Veel van die methodes zijn arbeidsintensief en daarom zie je in de praktijk vaak een intuïtieve benadering van de toets en wordt de norm bepaald door de toetsmaker. Je ziet dan vaak een standaard van cesuur op 55% en vragen die allemaal 1 punt waard zijn. Raadkanscorrectie speelt met name in deze variant van normeren een grote rol.

Bij het afnemen van gesloten vragen, is er altijd sprake van een raadkans. De enige uitzondering hierop is de invulvraag, bij alle andere gesloten vragen kun je door gokken/raden punten behalen. Bij meerkeuzevragen is dat voor veel mensen heel logisch. Er is bij 4 antwoordopties 25% kans dat de kandidaat de juiste kiest, simpelweg doordat de kans 1 op 4 is. Maar ook bij andere gesloten vragen (zoals de matrixvraag, de hotspotvraag, de meervoudig-juistvraag en de matchingvraag) is er sprake van een raadkans. Of men rekening wil houden met de raadkans in de normering, wordt bepaald door de toetsmaker. Uit literatuur blijken verschillende argumenten te zijn om niet voor raadkans te corrigeren. In Nederland is het echter gebruikelijk om dit wel te doen.

We doen dat omdat we betekenis willen geven aan de toetsscores. Wanneer er sprake zou zijn van een toets met alleen open vragen, kun je na de afname zeggen: deze kandidaat beheerst zoveel procent van het inhoudsdomein. Het beheersingspercentage is dan gelijk aan de toetsscore. Bij het gebruik van gesloten vraagtypen, kun je die vergelijking vanwege de raadkans niet maken. De kandidaat heeft per slot van rekening ook alle antwoorden bij toeval juist kunnen kiezen. Hoe kun je dan betekenis geven aan zijn score? We doen dat door de score van de kandidaat te corrigeren voor de raadkans.

Raadkanscorrectie is geen ideale oplossing. Het houdt bijvoorbeeld geen rekening met de vraag of iemand écht heeft geraden. Het is een wiskundige oplossing over iets wat eigenlijk niet wiskundig is op te lossen. Je wilt namelijk weten of de kandidaat over de kennis beschikt en dat doe je niet door een formule los te laten, dan doe je door zijn antwoorden te analyseren.

Het kan namelijk zomaar zo zijn dat een kandidaat het antwoord op de vraag niet weet, maar wel zeker weet dat alternatief 3 en alternatief 4 onjuist zijn. Dan heeft hij voor die vraag (in het geval van een vierkeuzevraag) al 50% raadkans. Maar je berekening houdt rekening met 25%. Strikt gezien is zijn kennis (nog) niet voldoende. Ben je zijn score dan wel juist aan het interpreteren wanneer je rekening houdt met 25% raadkans? Door zijn beperkte kennis kan hij waarschijnlijk meer antwoorden wegstrepen dan iemand met geen kennis (waar de raadkans op is berekend).

Raadkanscorrectie gaat er dus vanuit dat een kandidaat een gesloten vraag benaderd en de kennis heeft of niet heeft. Er zit geen betekenis hiertussen. Je beheerst het of niet. Dat is op zich al niet waar. Kandidaten hebben vaak wel enige kennis over het onderwerp, maar weten het juiste antwoord dan toch net niet te kiezen. Daarnaast hoeft de kans niet 25% te zijn dat de kandidaat kiest voor het juiste antwoord, dan zouden onze vragen zo gelijkmatig beschreven moeten zijn, dat gebeurd eigenlijk nooit. Er zijn altijd antwoordalternatieven die meer aandacht trekken dan anderen.

Daarnaast is het niet zo gezegd dat een kandidaat met geen enkele kennis over het leerstofdomein wel 25% van de vragen juist gaat beantwoorden. Het is immers een kansberekening, maar de werkelijkheid laat vaak iets anders zien.

En toch doen we het zo, omdat er in het geval van intuïtieve normering één van de weinige ingrepen zijn die je kunt doen om de score meer betekenis te geven.

Als het gaat om raadkanscorrectie zijn er drie manieren:

  1. Correctie voor raden

Willekeurig raden is funest voor de validiteit van de score-interpretatie. In deze methode is alles er vooral op gericht om kandidaten ervan te weerhouden om willekeurig te raden, wanneer ze de vraag niet met zekerheid kunnen beantwoorden. Het is een actie die gericht is op het gedrag van de kandidaat.

Voor een fout antwoord wordt de kandidaat bestraft (1 punt aftrek), voor een goed antwoord beloond (1 punt) en wanneer de kandidaat het juiste antwoord niet zeker weet, kiest hij voor ik-weet-het-niet en heeft het geen effect (0 punten).

Er zijn veel nadelen aan deze methode. Een fout antwoord komt niet altijd voort uit het willekeurig gokken. Het kan ook zijn dat een kandidaat wel enige kennis hebt over dit onderwerp, maar nu net deze toepassing verkeerd heeft begrepen. Het kan ook zijn dat hij zich echt teveel heeft laten afleiden door de afleiders in de vraag.

Verder is het vreemd om een kandidaat een strafpunt te geven voor een fout antwoord (kennelijk weet hij het juiste antwoord niet) en ook voor een ik-weet-het-niet-antwoord. In beide gevallen weet hij het juiste antwoord niet, maar voor de ene wordt hij bestraft en de andere telt niet mee.

Het grootste nadeel van deze methode is in meerdere onderzoeken aangetoond en gaat over het bevoordelen van specifieke kandidaten ten opzichte van andere kandidaten. Dat komt voort uit het feit dat er een antwoordstrategie nodig is bij het beantwoorden van dergelijke vragen. Naast het feit dat een kandidaat de vraag moet beantwoorden, moet hij er ook over nadenken hoe zeker hij is van zijn antwoord. Onderzoek laat zien dat dit leidt tot grote verschillen tussen voorzichtige kandidaten (die snel kiezen voor weet-niet antwoorden) en (vaak mannelijke) risiconemers. De risiconemers kwamen er in alle gevallen beter vanaf.

Deze raadkans-methode maakt een toets multi-dimensionaal. Je meet niet alleen de kennis van de kandidaat, maar ook zaken als beslisvaardigheid, risico nemen, strategisch inzicht. Dat bevordert de validiteit van je beslissing niet.

Daarom zie je in de praktijk deze methode niet vaak terug.

  1. Gedwongen raden

In de praktijk zie je meestal de methode ‘gedwongen raden’ terug. De methode dankt zijn titel aan de instructie die kandidaten krijgen wanneer ze een toets maken met deze raadkanscorrectie. Die instructie luidt: geef altijd een antwoord, ook als je het niet weet. Ze worden dus gedwongen om te raden als ze niet goed antwoord kunnen geven op de vraag.

In deze methode wordt berekend hoeveel punten een kandidaat zou hebben als hij ‘blind’ zou gokken op basis van aantal antwoordalternatieven (of scoregebieden in andere gesloten vragen). De scores die vallen binnen dit gok-bereik wordt bestempeld als niet-betekenisvol. En dus adviseren ze om pas boven deze grens de scores om te rekenen naar cijfers. Een aantal scorepunten dat precies op deze grens ligt, levert dan 0 punten op (en alle scores onder deze grensscore ook). De cesuur ligt dan in het scorebereik tussen de gecorrigeerde score en de maximale score.

De normering ziet er dan als volgt uit:

 

Wanneer je de raadkanscorrectie aanzet in RemindoToets is dit de methode die wordt toegepast.

  1. Opnemen in normering

Wanneer we in onze normering inhoudelijk rekening houden met de raadkans, dan wordt deze opgenomen in de cesuurbepaling. Dat gebeurt bijvoorbeeld bij normeringsmethoden zoals de Angoff methode, zie voor meer informatie ons artikel over Normeren in RemindoToets. Deskundigen nemen in hun advies voor het vastleggen van de grens tussen zakken en slagen, de raadkans mee. Je ziet dat in de praktijk de cesuurgrens verder ligt dan de gebruikelijke 55%. Een voorbeeld hiervan, zie je in deze afbeelding.

Welke methode je kiest voor het corrigeren van de score vanwege raadkans is vaak afhankelijk van het doel en de opzet van je toets. Wil je daar hulp bij, aarzel niet om het ons te vragen. We denken graag met je mee.


Soms is hij lid van een examencommissie, andere keren is hij de externe betrokkene, de inhoudsdeskundige of iemand die steeds een andere pet op heeft: de vaststeller. Het lijkt in het hele toetsproces soms een functie die een formaliteit afhandelt. Maar niets is minder waar. Zonder vaststeller, geen examenkwaliteit.

Wanneer het vaststellen een formele stap is in de totstandkoming van een examen, dan gebeurt dit vaak op twee momenten tijdens het examenproces:

  1. Het vaststellen van de toets

Het vaststellen van de toets gebeurt voor de toetsafname. Hier kijkt de vaststeller of de toets voldoet aan de kwaliteitscriteria die zijn gesteld. Wanneer de toets is goedgekeurd dan wordt deze vastgesteld, en kan de toets daadwerkelijk afgenomen worden.

  1. Het vaststellen van de toetsresultaten

Na de afname worden de toetsresultaten geanalyseerd. Dan wordt op basis van de toetsresultaten gekeken, in welke mate een valide en betrouwbare beslissing genomen kan worden.  Als dit binnen de gestelde kwaliteitsgrenzen ligt, kunnen de toetsresultaten vastgesteld worden. Soms hebben de kandidaten al een voorlopige uitslag gekregen, welke dan definitief wordt gemaakt.

Om een toets vast te stellen beoordeelt de vaststeller of de toets voldoet aan de kwaliteitscriteria. De school of de examencommissie stelt deze kwaliteitscriteria meestal vast in het toetsbeleid, of in losse documenten die gaan over de examenorganisatie. De school kan daarbij rekening houden met de context waarin wordt gewerkt. Zo kan de invloed van de school op de toetsing veel minder zijn, wanneer examens worden ingekocht of wanneer er onderwijs wordt gegeven in een vakgebied dat zich nu eenmaal moeilijk laat toetsen. Dat zie je terug in mildere kwaliteitscriteria.

In de praktijk zie je meestal de volgende kwaliteitscriteria terugkomen, die de vaststeller bij de hand houdt om te beslissen of het examen kan worden vastgesteld:

  • Past de toetsvorm en -inhoud bij de leerdoelen?

Om een vak te toetsen worden vooraf leerdoelen opgesteld, die soms nog worden vertaald naar toetscriteria. Zowel de docent die de inhoud van de lessen verzorgt als de toetsmaker moeten zich houden aan deze leerdoelen. Daarmee voorkom je dat de inhoud van de toets niet herkend wordt door de studenten. Dat betekent dat de vragen die in een toets worden gesteld, moeten passen bij de leerdoelen waar deze toets over gaat.

De toetsvorm speelt hierbij ook een grote rol. Als de student aan het einde van de opleiding een vogelhuisje moet kunnen timmeren, dan kun je dat niet toetsen met een theorie-examen. Dat klinkt heel logisch, maar in de praktijk blijkt er door allerlei praktische redenen niet altijd een goede toetsvorm te worden gekozen.

  • Is de toetssamenstelling representatief, eerlijk en heeft het een passende omvang?

De vaststeller duikt in de inhoud. De vragen moeten inhoudelijk passen bij de leerdoelen, maar ook van een goed niveau zijn. Wanneer van studenten wordt verwacht dat ze theorie moeten kunnen toepassen in een praktijksituatie, dan kan niet het hele examen bestaan uit kennisvragen. Dan zou je op zijn minst bijvoorbeeld enkele casusvragen, het maken van berekeningen of het toepassen van kennis willen terugzien. Dat betekent dat de vaststeller controleert of de vragen representatief zijn qua inhoud en niveau, als hij kijkt naar de leerdoelen.

Daarnaast wil de vaststeller zien dat de toets eerlijk is voor alle studenten in de doelgroep. Dat betekent dat de vragen in de toets geen studenten voortrekken. Dat zie je bijvoorbeeld nog wel eens gebeuren wanneer herkansingsexamens eenvoudiger zijn dan de eerste-kans-examens. De herkansers krijgen hiermee een voordeligere situatie en dat is niet wenselijk. Ook kan een toets ongemerkt jongens, meisjes of studenten met een andere etnische afkomst bevoor- of benadelen. Wanneer een casus ingaat op de transfersituatie van de voetballers van een specifieke voetbalclub en daar 10 vragen over stelt, dan beoordeelt de vaststeller of dit voor ongelijkheid van toetsing zorgt.

Daarnaast is het belangrijk dat een toets een passende lengte heeft. Een te korte toets kan moeilijk meten of de leerdoelen echt zijn behaald. Een te lange toets kan ervoor zorgen dat een student in tijdnood komt, waardoor je ook niet meet of de leerdoelen zijn behaald. Past deze toets binnen de beschikbare tijd?

  • Is voldaan aan alle afspraken?

De vaststeller kan tot slot controleren of er met betrekking tot deze toets is voldaan aan alle afspraken die zijn gemaakt rondom de toetsontwikkeling en -afname. Je kunt hierbij denken aan vragen als:

  • Is de normering op een juiste manier tot stand gekomen?
  • Heeft een inhoudelijk deskundige deze toets beoordeeld en wat was zijn oordeel?
  • Krijgt de student voldoende instructies (toegestane hulpmiddelen, duur en omvang)?

Als alle vragen zijn beantwoord en het beeld van de vaststeller is positief, dan kan de toets worden afgenomen. Helaas is het gevaar dan nog niet geweken. Tijdens de afname kan er van alles gebeuren waarmee we de student een eerlijke toetsing ontnemen. In ieder geval is er dan aan de voorkant alles gedaan om dit te voorkomen.

Na afloop wordt de toets geanalyseerd. Hierbij komt de vaststeller weer in actie. Kunnen we op basis van deze toetsresultaten een valide en betrouwbaar oordeel geven? Dan zullen de resultaten worden vastgesteld en kan de cyclus opnieuw beginnen.

In de nieuwe release van RemindoToets heeft de vaststeller zijn eigen gebruikersrol gekregen. De vaststeller kan daarmee in RemindoToets de toetsmatrijzen die voor hem beschikbaar zijn vaststellen. Op zaterdag 4 mei 2019 is de nieuwe release met de rol van de vaststeller erin, uitgerold en online beschikbaar gekomen.


Steeds meer onderwijsinstellingen werken aan de 21e-eeuwse vaardigheden van hun studenten. Deze vaardigheden zouden de studenten moeten bezitten om succesvol deel te nemen aan de arbeidsmarkt en maatschappij. Om je als student te kunnen ontwikkelen in deze vaardigheden, is het goed om inzicht te krijgen waar je nu staat en waar je je in kan en wilt ontwikkelen. KOMPAS21 helpt studenten inzicht te krijgen in hun 21e-eeuwse vaardigheden en laat net als een echt kompas zien waar je nu staat en waar je heen wilt.

KOMPAS21 (Kennis Over Mijn Persoonlijke Attitudes en Skills21) is een project waarbij CINOP-ecbo en ROC Friese Poort samen met 11 andere mbo-instellingen en Paragin aan een nieuw (digitaal) instrument werken. Paragin heeft Pieter Baay, projectleider van KOMPAS21 namens CINOP-ecbo, een aantal vragen gesteld over KOMPAS21 om de lezers van de Paragin Update een kijkje te geven in de ontwikkeling van KOMPAS21.

Hoe is KOMPAS21 ontstaan?

“Begin 2017 troffen de bestuurder van ROC Friese Poort en ik elkaar. ROC Friese Poort was vanuit haar visie op Brede Vorming innovatieve ideeën aan het uitwerken rondom 21ste-eeuwse vaardigheden en zij wilden daarvoor graag een reflectie-instrument. Voor vaardigheden als kritisch denken, ondernemendheid en sociale- en culturele vaardigheden. We wisten meteen: dat gaan we niet voor elke school apart doen. Heel snel hebben we toen andere mbo-instellingen benaderd en hadden we een groep bij elkaar. Samen financierden zij de ontwikkeling van het instrument en vormden we de projectgroep die er anderhalf jaar aan zouden werken.”

Waar staat KOMPAS21 eigenlijk voor?

“KOMPAS21 staat voor het symbool van een kompas, waarmee je je huidige locatie en toekomstige richting kunt ontdekken. Het staat ook voor Kennis Over Mijn Persoonlijke Attitudes en Skills21. Je leert jouw vaardigheden en attitudes kennen. 21ste-eeuwse vaardigheden zijn namelijk een mix van kennis, vaardigheden, attitudes, waarden en ethiek; die proberen we te vangen in het instrument.”

Wie is de doelgroep?

“Het instrument richt zich in eerste instantie op studenten. Maar als we op 2 juli fase 1 afronden, bepalen we met welke nieuwe ideeën we aan de slag gaan. Een versie voor docenten en andere onderwijsprofessionals; een versie voor het bedrijfsleven; voor voortgezet onderwijs of hoger onderwijs? We hebben al zin in de volgende stap!”

Hoe is het instrument tot stand gekomen? 

“Elke maand van 2018 stond één vaardigheid centraal. We startten telkens met literatuuronderzoek, omdat er veel bekend is over de vaardigheden. Daarna hielden we een online peiling onder studenten en docenten. Hierin legden we de belangrijkste elementen voor en vroegen we deelnemers welke elementen zij het belangrijkst vonden en hoe ze dat terugzagen in het mbo. Daarna was het tijd voor een Group Design Room: een bijeenkomst met studenten, docenten en vertegenwoordigers uit het bedrijfsleven. Zij reflecteerden op de resultaten uit de literatuur en online peiling, om zo per vaardigheid te duiden waar deze in het mbo uit bestond en welke niveaus te onderscheiden zijn. Zo kwamen we tot rubrics per vaardigheid, die we gebruikten voor het maken van het reflectie-instrument.”

Wat waren de reacties van studenten?

“We hadden een Klas21, met studenten uit de verschillende scholen. Zij maakten vlogs over de vaardigheden en dachten mee over de vaardigheden. Voor hen leuk om eens met studenten uit het hele land op te trekken en voor ons heel fijn om zo een frisse en kritische blik op onze materialen te krijgen!”

Waar staat het project nu, in mei 2019?

“Paragin doet nu de digitalisering van het instrument en die gaan we proefdraaien in de scholen. We kijken dan of studenten uit de voeten kunnen met het instrument en de terugkoppeling die het programma biedt. Na de aanpassingen, is het instrument klaar voor de lancering op 2 juli op Urk! Alle bestuurders en projectgroepleden komen dan bij elkaar om het eind van fase 1 te vieren en het vervolg in te luiden.”

Straks is de eerste versie van het instrument dus klaar. Kun je wat meer vertellen hoe dit op de scholen gaat plaatsvinden?

“De scholen hebben hierin veel keuzevrijheid en je ziet dus ook verschillen ontstaan. Van de toepassing binnen LOB-gesprekken en Burgerschapslessen tot evaluatie van de stageperiode of een excellentieprogramma; studenten gaan er op verschillende manieren mee werken. Maar er zijn ook al ideeën om het instrument te gebruiken bij professionalisering van medewerkers en zelfs bij de beoordelingsgesprekken van het management!”

Jullie willen KOMPAS21 inzetten als reflectie-instrument en niet als beoordelingsinstrument. Hoe wordt voorkomen dat docenten het instrument als beoordelingsinstrument gaan zien?

“We hebben als projectgroep inderdaad gezegd dat het een reflectie-instrument moet zijn, dat vanuit een waarderend perspectief naar mensen kijkt. Niet de onvoldoendes proberen uit te vegen, maar (ook) kijken waar mensen goed in zijn en zich verder in willen ontwikkelen. Het instrument is daarom niet zomaar te gebruiken; dat vraagt goede begeleiding. We zijn nu de training aan het ontwikkelen om het instrument te gebruiken volgens ‘de bedoeling’.”

Wat vraagt KOMPAS21 van een school (de visie van een school, het curriculum, de docent, de student)?

“We zullen de komende tijd gaan ervaren waar scholen tegenaan lopen bij het gebruik van het instrument. Vanuit veranderkunde weten we dat het niet zomaar zal landen. We kijken met de scholen hoe zij zich het verbinden aan hun onderwijsvisie, hun professionaliseringsactiviteiten en de aanknopingspunten in het curriculum. De komende jaren zullen we nog veel onderzoeks- en praktijkvragen naar voren komen hoe we hiermee verder willen!”

Wil je meer lezen over KOMPAS21, bekijk dan de website.

 

 


RemindoToets kent maar liefst 12 verschillende vraagtypen. Toch domineert vooral één vraagtype in de itembanken van onze klanten: de meerkeuzevraag. De keuze voor dit vraagtype is logisch vanuit de historie rondom toetsen en dan vooral de papieren toets-gewoonten. Waar men al wel de overstap heeft gemaakt op het digitaliseren van het toetsproces, is het overstappen naar het gebruik van verschillende vraagtypen niet zo snel gemaakt. Waarom is het slim om dit wel te overwegen? En welk vraagtype past dan het best bij de toetscriteria?

Op basis van een vergelijking van de drie grootste itembanken in RemindoToets (in totaal 276.760 vragen) zien we dat maar liefst 69% van de vragen een meerkeuzevraag is. De invulvraag (15%) en de open vraag (14%) staan op de tweede en derde plaats in de ranglijst.

Verdeling vraagtypen uit de drie grootste itembanken (totaal: 276.760 vragen). In dit overzicht worden zowel de ‘een-uit-meervraag’ en de ‘meer-uit-meervraag’ als meerkeuzevraag beschouwd en zowel de uploadvraag als de samengestelde vraag zijn achterwege gelaten.

Wanneer een organisatie de toetsen afneemt op papier is de keuze voor een meerkeuzevraag heel begrijpelijk. We toetsen veel en bij grotere aantallen kandidaten is het heel belangrijk dat er snel beoordeeld kan worden. Daar leent een meerkeuzevraag zich uitstekend voor.

Wanneer er wordt overgegaan op digitale toetsing komt er een heel spectrum aan vraagtypen ter beschikking. Dan is het kiezen voor een meerkeuzevraag een stuk minder logisch. Mede omdat het beoordelen digitaal ook bij andere (gesloten) vraagtypen geautomatiseerd gebeurt. De belangrijkste bezwaren die we horen als het gaat om het eventueel overstappen naar een ander vraagtype zijn:

  1. Het wordt voor de kandidaat heel verwarrend als we meerdere vraagtypen gaan gebruiken in één toets.
  2. We nemen al jaren deze toets af in deze vorm (bijvoorbeeld 60 meerkeuzevragen). We moeten kandidaten wel toetsen blijven aanbieden van dezelfde moeilijkheidsgraad.

In 2009 deden Draaijer en Van den Bos onderzoek naar het gebruik van verschillende vraagtypen. Dit onderzoek werd uitgevoerd onder derdejaars studenten van de opleiding ‘Voeding en Spijsvertering’. In het onderzoek werd de studenten een examen aangeboden met daarin de gebruikelijke 56 meerkeuzevragen en daarbij 22 vragen van een ander vraagtype. Hiervoor werden de matrixvraag, de drag & dropvraag en de meervoudig-juistvraag gebruikt. Daarna werden de psychometrische gegevens van de toetsresultaten bekeken en kregen de kandidaten nog een aantal vragen over hun ervaring met dit nieuwe examen.

De kandidaten reageerden verrassend enthousiast over de variatie in vraagtypen. Ze gaven daarbij aan: “Leuk en uitdagend, ik werd gedwongen beter na te denken.”

De psychometrische gegevens gaven daarnaast ook een positief beeld van de ‘alternatieve’ vraagtypen.

  • Een toets die zou bestaan uit alleen de 56 meerkeuzevragen gaf een gemiddelde rit-waarde van 0,21.
  • Een toets die zou bestaan uit alleen ‘alternatieve’ vraagtypen gaf een gemiddelde rit-waarde van 0,34.

Daarmee maakt de toets met alternatieve vraagtypen dus een beter onderscheid tussen de kandidaten die de leerstof wel, en kandidaten die de leerstof niet beheersen.

Daarnaast had het gebruik van de ‘alternatieve’ vraagtypen effect op het slagingspercentage.

  • Voor een toets met alleen de meerkeuzevragen zou 61% van de kandidaten zijn geslaagd.
  • Voor een toets met alleen de ‘alternatieve’ vraagtypen zou 77% van de kandidaten zijn geslaagd.

Wanneer we terugkijken naar de veelgehoorde bezwaren van het overstappen naar een ander vraagtype, laat dit onderzoek zien dat het voor kandidaten helemaal niet zo verwarrend heeft gewerkt.

Over de moeilijkheidsgraad valt er op basis van dit onderzoek geen duidelijke conclusie te trekken. We zien dat er meer mensen slagen met de alternatieve vraagtypen. Dat kan komen omdat het examen hierdoor makkelijker is geworden. Maar aannemelijker is het dat we met behulp van de alternatieve vraagtypen beter hebben kunnen meten wat we wilden meten, de toetsanalyse geeft namelijk betere resultaten.

Dit onderzoek geeft dus aan dat de aarzeling met betrekking tot de verschillende vraagtypen niet nodig is. Het levert juist veel voordelen op als het gaat om de betrouwbaarheid en validiteit van de beslissingen die je neemt op basis van de toetsresultaten.

Hoe pak je dit dan aan?

Het kiezen van een passend vraagtype is net zo belangrijk als andere onderdelen van de toetsontwikkeling. Je zult merken dat door het juiste vraagtype in te zetten, de vraag beter geformuleerd kan worden en echt gemeten kan worden wat je wilde meten.

Om je hierbij te ondersteunen hebben we een hulpdocument geschreven. Daarop vind je een overzicht van werkwoorden. Op basis van deze werkwoorden is aangegeven welk vraagtype hier logischerwijs bij zou passen. Je kunt dit document leggen naast je toetscriteria en voorafgaand aan het ontwikkelen van het examen al bedenken: welke vraagtypen ga ik gebruiken?

Naast het kiezen van een vraagtype dat past bij je toetscriterium zijn er ook andere factoren van belang die samenhangen met het vraagtype dat je kiest. Zo hebben we niet voor niets jarenlang allerlei toetscriteria proberen te toetsen met meerkeuzevragen. Je wilt natuurlijk een betrouwbare en valide oordeel vellen over je kandidaten, maar het is heel begrijpelijk om ook aan bijvoorbeeld de organisatiefactoren te denken. Kun je het wel bolwerken om meer open vragen te stellen?

Hier bieden we je een checklist aan waarop een aantal van die factoren beschreven staan. Als je kijkt naar de meerkeuzevraag als vraagtype zie je bijvoorbeeld:

  • Dat hij meerdere cognitieve niveaus kan toetsen (hoewel ze vaker gericht zijn op lagere orde denkvaardigheden).
  • Dat hij door kandidaten snel te beantwoorden is, zodat je veel vragen kunt stellen in één examen en daarmee een heel groot deel van je leerstofdomein kunt bevragen.
  • Dat hij lastig is om te ontwikkelen. Goede afleiders bedenken is een hele klus en lukt niet altijd.
  • Dat kandidaten een raadkans hebben op deze vraag, waarmee een deel van de scoring betekenisloos wordt.
  • Je kunt er niet bij bluffen, zoals je dat wel kan in open vragen. Bluffen houdt in dat kandidaten niet precies het antwoord geven op de vraag, maar wel veel andere informatie waardoor je geneigd bent als beoordelaar om (enkele) punten toe te kennen.
  • Hij biedt wat informatie over denkfouten die kandidaten maken. Je kunt bijvoorbeeld zien voor welke afleider vaak is gekozen. Als je dit soort informatie hebt, kun je daar je onderwijs op verbeteren.
  • De scoring van dit vraagtype wordt volledig objectief (namelijk geautomatiseerd) gedaan.

Zo zien we dat het helemaal niet vreemd is dat er vaak voor een meerkeuzevraag wordt gekozen. Andere vraagtypen kennen ook hun voor- en nadelen. De uitdaging ligt erin om een vraagtype te kiezen dat recht doet aan de leerstof en de toetscriteria die getoetst moeten worden.

Voel je vrij om verschillende vraagtypen te gebruiken. Veel succes!


Twee weken na de prijsuitreiking waar hij de Publieksprijs voor Examens won, trainde Harry Molkenboer op het kantoor van Paragin vol enthousiasme RemindoToets-gebruikers in het juist interpreteren van de toets- en itemanalyse en het bepalen van cesuur.

Tijdens de training werd, aan de hand van concrete voorbeelden uit RemindoToets, uitleg gegeven over hoe deze waarden geïnterpreteerd kunnen worden en wat de conclusie kan zijn over de kwaliteit van de vraag en de toets. Deelnemers werden uitgedaagd om beslissingen te nemen in verschillende casuïstiek.

Het boek van Harry ‘180 gevalideerde richtlijnen voor toetsen‘ was een welkome handleiding voor deze toetsanalyse. Aan de hand van voorbeelden werd stil gestaan bij de richtlijnen voor de betreffende waarde, zoals de p- en rir-waarde. Daarbij werd steeds nuance aangebracht waarbij duidelijk werd dat ook de toetsanalyse geen zwart-wit gebied betreft, maar bestaat uit verschillende grijstinten waar goed over nagedacht moet worden. Harry gaf inzage in het effect van een meetfout in de toets. Met hoeveel zekerheid kunnen we zeggen dat een oordeel over een score van een kandidaat passend is?

Deze vraag heeft ook te maken met het bepalen van cesuur. Daarbij heeft Harry verschillende cesuurmethoden uitgelegd en hierbij de voor- en nadelen besproken.

Enkele reacties van de deelnemers waren:

“Leuk om echt te oefenen met echte voorbeelden!”

“Ik wist vrijwel niets van toets- en itemanalyse en nu voel ik me een halve onderwijskundige!”

“Ik ben blij dat ik erbij was!”

Wij bedanken Harry hartelijk voor zijn enorme inzet en de enthousiaste manier waarmee hij het gecompliceerde eenvoudig en met humor weet te brengen.


De meerkeuzevraag is het favoriete vraagtype van veel onderwijs- en exameninstellingen. Het maken van dergelijke vragen is niet eenvoudig, vooral het komen tot goede afleiders (foute antwoordalternatieven) kan nogal een uitdaging zijn. Je zou daarmee kunnen pleiten voor minder antwoordalternatieven, maar daarmee vergroot je de raadkans. Wat is het optimale aantal antwoordalternatieven?

Een meerkeuzevraag kent veel voordelen. Dit vraagtype leent zich voor het toetsen van zowel lagere als hogere orde denkvaardigheden. Het zijn gesloten vragen, dus de beoordeling is behoorlijk objectief. Omdat ze snel te beantwoorden zijn, kun je veel van deze vragen in je toets plaatsen, zodat je een groot deel van de leerstof kunt toetsen. Maar dit vraagtype kent ook een groot nadeel: hij is niet eenvoudig te ontwikkelen. Vooral het bedenken van plausibele afleiders is een enorme uitdaging. Daarom wordt er al jaren onderzoek gedaan naar het optimale aantal antwoordalternatieven (het eerste onderzoek hierover stamt uit 1919).

Raadkans

Vanuit verschillende gedachten kun je deze vraag beantwoorden. Als je kijkt naar de raadkans, dan zou je kunnen pleiten voor zoveel mogelijk alternatieven. Daarmee verklein je de raadkans. Een vijfkeuzevraag heeft 20% raadkans ten opzichte van een driekeuzevraag met 33% raadkans. Een hoge raadkans zorgt ervoor dat je meer vragen nodig hebt, om te meten wat je wilt meten bij de kandidaat. Je houdt dan rekening met de kans dat de kandidaat het antwoord juist gokt, waarbij dit dus niet betekent dat hij deze kennis ook daadwerkelijk bezit.

Afleiders bedenken

De ontwikkeling van vragen met meer dan drie alternatieven is een stuk ingewikkelder, waardoor de kans bestaat dat je alternatieven toevoegt die niet geloofwaardig zijn als antwoord en die zodoende makkelijk worden weggestreept door de kandidaat. Dan kost het de kandidaat alleen meer leestijd en levert het weinig extra inzicht op. Technisch gezien houd je dan rekening met een lagere raadkans, terwijl de praktijk anders laat zien. Wanneer kandidaten één van de 4 antwoordalternatieven nooit kiest, maar je houdt in de normering rekening met een raadkans van 25%, dan heeft dat een negatief effect op de validiteit van je beslissing. Je hebt de lat dan misschien wel te laag gelegd.

Driekeuzevraag

Onderzoek (Rodriguez, 2005) laat zien dat drie alternatieven voor de meeste vakgebieden het ideale aantal alternatieven is. Rodriguez deed in 2005 een meta-analyse van 80 jaar aan onderzoek over het aantal alternatieven en concludeerde dat het terugbrengen van het aantal alternatieven over het algemeen de betrouwbaarheid van de toetsscores verlaagde, met uitzondering van één situatie. Wanneer het aantal antwoordalternatieven werd teruggebracht van 4 naar 3 alternatieven, steeg de betrouwbaarheid van de toets.

In hetzelfde onderzoek concludeerde Rodriguez dat de validiteit gelijk bleef wanneer het aantal antwoordalternatieven werd verlaagd.

De driekeuzevraag heeft een aantal voordelen, zonder daarmee de effectiviteit van de toets aan te tasten. Eén voordeel is je de kans op slechte afleiders verminderd. Slechte afleiders in vragen heeft invloed op de validiteit. Daarnaast laat de driekeuzevraag geen grote veranderingen zien in de psychometrische gegevens, als je deze vergelijkt met een vierkeuze- of vijfkeuzevraag. De statistieken laten zien dat de driekeuzevraag de p-waarde verlaagt (moeilijkheid). Dat is logisch, omdat de raadkans hoger is. Maar daarnaast verhoogt de driekeuzevraag de rit- en rir-waarde (het discriminerend vermogen) en daarmee ook de betrouwbaarheid van de toets. Een ander voordeel is dat een driekeuzevraag minder tijd kost om te beantwoorden, daarmee zou je theoretisch gezien meer vragen kunnen opnemen in de toets. Dat zorgt voor een bredere toetsing van de leerstof.

Op donderdag 14 maart aanstaande is Paragin aanwezig bij het NVE-Examencongres. We verzorgen daar een workshop over het gebruik van verschillende vraagtypen, waar de meerkeuzevraag uiteraard ook een grote rol speelt. Wil je meedenken over de voor- en nadelen van vraagtypen, kom dan naar onze workshop!

 


Feedback is één van de meest krachtige invloeden op het leren van mensen, maar de impact van feedback kan zowel positief als negatief zijn. Hoewel de bedoeling van docenten bij het geven van feedback vaak heel goed is, is de feedback inhoudelijk gezien niet altijd even effectief. Zo blijkt uit onderzoek dat docenten jongens vaker feedback geven die gericht is op een gebrek aan inzet (je doet het niet), terwijl de feedback aan meisjes vaker is gericht op een gebrek aan vaardigheid (je kunt het niet). Natuurlijk niet bewust, maar wel een valkuil waar we liever niet in stappen. Zeker omdat het nadelige gevolgen heeft voor de motivatie en mogelijkheden van een leerling. Zorgvuldig feedback geven in het onderwijs is dus van groot belang.

In 1975 deden Carol Dweck en collega’s al onderzoek naar het effect van ‘gebrek aan inzet’ versus ‘het gebrek aan vaardigheid’. Ze kwamen erachter dat wanneer meisjes uit groep 6 zakken voor een taak, de oorzaak werd gezocht in een gebrek aan vaardigheid. Daarna scoorden deze meisjes ook slecht op een cognitieve toets over dezelfde inhoud. Daaruit bleek dat feedback die een gebrek aan vaardigheid beschrijft, invloed heeft op de prestatie in de volgende taak. Voor jongens uit dezelfde groep was dat anders. Hun falen werd vooral geweten aan een gebrek aan inzet. Jongens scoorden daarmee op de volgende taak (de cognitieve toets) beter dan de meisjes.

Dit beeld kwam overeen met de natuurlijke kritiek van docenten op meisjes en jongens. Daar waar meisjes iets niet kunnen, werd de oorzaak vaker gezocht in een gebrek aan vaardigheid, waarmee men tot de conclusie kwam dat de leerling de taak niet aan kon. Van de jongens werd vaker gedacht dat ze er te weinig energie in hadden gestoken. Waardoor de jongens met iets meer inzet toch vertrouwen kregen in het aanpakken van de volgende taak en hier ook beter in presteerden. Dit onderzoek en verder onderzoek van Carol Dweck heeft geleid tot haar theorie over de fixed en growth mindset. Hier kun je een lezing van Carol volgen over deze theorie.

Feedback geven, luistert dus nauw. Er is geen docent die graag het beeld mee geeft dat een leerling een gebrek aan vaardigheid laat zien en toch gebeurt dat. Feedback in het onderwijs is vooral bedoeld om ‘de verschillen tussen de huidige situatie en de doelstellingen te verkleinen’. Onderzoek van Hattie & Timperley (2007) laat zien dat goede feedback leerlingen bewust maakt van hun ontwikkelingen en vorderingen die gemaakt zijn richting het gestelde doel. Om dat voor elkaar te krijgen bieden Hattie & Timperley het volgende feedback-model:

Bron: Hattie, J., & Timperley, H. (2007). The power of feedback. Review of educational research, 77(1), 81-112.

Om een leerling bewust te maken van de ontwikkelingen en vorderingen die zijn gemaakt richting het gestelde doel, moeten docenten drie vragen centraal stellen:

  1. Feed Up: waar ga je naartoe, wat is jouw doel of welke resultaten wil je bereiken?
  2. Feed Back: wat heb je gedaan, hoe heb je het tot nu toe aangepakt?
  3. Feed Forward: wat is je volgende stap, wat ga je verder doen om het doel te bereiken?

In deze video worden de resultaten uit het onderzoek van Hattie & Timperley in het kort nog eens uitgelegd.

Er bestaan volgens het onderzoek van Hattie & Timperley vier niveaus van feedback:

  1. Feedback op de taakuitvoering

“Je hebt 63% juist beantwoord.”

  1. Feedback op het proces

“Kijk nog eens naar deze video en probeer het dan nog een keer.”

  1. Feedback op zelfregulerend werken

“Als je nu terugkijkt op deze taak, wat zorgde ervoor dat het goed ging?”

  1. Feedback op de persoon. Deze feedback wordt niet als effectief gezien.

“Je let niet op.” “Wat ben jij toch een slim kind.” “Zit niet zo te dromen.”  

Feedback op het proces en op het zelfregulerend werken, blijkt het meest effectief te zijn. Feedback op de persoon is minder nuttig, omdat de leerling hier weinig controle over heeft.

Feedback geven is ontzettend belangrijk voor leren en ontwikkelen. Naast het geven van instructie/aanwijzingen is dit de meest invloedrijke interventie die docenten hebben in een klas. Zorgvuldig feedback geven is dus de moeite waard, maar vraagt ook om oefening en reflectie.

Wil je het onderzoek van Hattie & Timperley nalezen? Dat kan hier.


Het gebruik van rubrics bij het beoordelen van opdrachten is populair in ons huidige onderwijs. Een rubric zou de beoordeling van het werk van studenten enorm verbeteren en verrijken, maar hoe zit het eigenlijk met de validiteit? Levert een rubric ook daadwerkelijk een betrouwbaar en valide oordeel op?

Een rubric is een set van beoordelingscriteria, waarmee opdrachten van studenten worden beoordeeld. Een rubric kan zowel holistisch worden gebruikt, als analytisch (of een combinatie van die twee), waarbij in holistische zin de opdracht als geheel wordt beoordeeld en in analytische zin per onderdeel van de opdracht een oordeel wordt gegeven, die samen het eindoordeel bepalen.

Criterium Onvoldoende Matig Voldoende Goed
Kennis en inzicht over de inhoud: het argument Gebrek aan kennis en inzicht over het inhoudsdomein, dat leidt tot een niet-overtuigend argument. Beperkte kennis en inzicht over het inhoudsdomein. Herkenbaar door vage en onduidelijke taal. Geen overtuigend argument. Kennis en inzicht over het grootste deel van het inhoudsdomein. Geeft fragmentarisch een overtuigend argument. Duidelijk kennis en inzicht over het inhoudsdomein. Herkenbaar door duidelijke en concrete taal en complexe ideeën. Sterke, overtuigende en consistente argumenten.

Voorbeeld van beoordelingscriterium uitgewerkt in een rubric

Uit onderzoek blijkt dat beoordelaarsfouten bij het beoordelen van opdrachten helaas veel voorkomen (bijvoorbeeld Gage en Berliner uit 1992). Studenten die een goede schrijfstijl hebben en zich kunnen houden aan de spelling- en grammaticaregels, krijgen hogere cijfers voor hun essays dan studenten die deze vaardigheden niet beheersen. Oók wanneer docenten wordt gevraagd alleen de inhoud te beoordelen. Zelfs interpunctie en fouten in de opmaak van het document blijken een rol te spelen bij de beoordeling van de inhoud. Gage en Berliner (1992) onderzochten de betrouwbaarheid en validiteit van het beoordelen van essays, door een groep van 100 docenten een essay te laten beoordelen, zonder een rubric. Alle docenten beoordeelden hetzelfde essay en scoorden deze op een 100 puntsschaal. Hoewel de docenten dezelfde instructies hadden gekregen, varieerden de cijfers enorm. De scores liepen van 60 tot ruim 90 punten.

De rubric is een instrument dat moet helpen om deze beoordelaarsfouten te voorkomen. Uit onderzoek blijkt ook dat docenten zich zelfverzekerder voelen tijdens het beoordelen, door het gebruik van een rubric (Silvestri & Oescher, 2006). Is dat gevoel dan ook terecht?

Rezaei & Lovorn (2010) deden een poging om deze vraag te beantwoorden, door te kijken naar de vraag of een rubric beoordelaars helpt te voorkomen dat ze teveel aandacht besteden aan de schrijfvaardigheid van de studenten, boven de redeneerkwaliteit, inhoud van de kennis en het logisch denken. Zij deden dit door 326 beoordelaars twee essays te laten beoordelen, eenmaal met en eenmaal zonder rubric. De beoordelaars werden onderverdeeld in 4 groepen. De eerste twee groepen bestonden uit docenten en docenten in-opleiding (71 en 108 personen). De derde en vierde groep waren studenten uit de bedrijfskundige en marketingopleidingen, in de leeftijd van 20 tot 55 jaar (85 en 72 personen).

In het eerste experiment werden groep 1 (docenten) en groep 3 (bedrijfskundigen) gevraagd een essay te beoordelen over de economische globalisatie. Het essay moest daarbij voldoen aan een aantal inhoudelijke eisen en antwoord geven op een specifieke vraag. Essay 1 was bijzonder netjes geschreven, correct qua spelling en grammatica, maar gaf geen antwoord op de gestelde vraag en voldeed daarbij niet aan het belangrijkste criterium.

Groep 2 (docenten) en groep 4 (bedrijfskundigen) kregen een ander essay om te beoordelen, gemaakt met dezelfde opdracht. In dit geval voldeed het essay inhoudelijk aan alle eisen en zou volgens de gegeven rubric hoog moeten scoren. Maar de schrijfvaardigheid liet wat te wensen over. Er stonden 20 structuur-, spelling- en grammaticafouten in.

In de rubric die de beoordelaars kregen, mocht de schrijfvaardigheid beoordeeld worden met maximaal 10 punten. De andere 90 punten ging over het inhoudelijke deel van de opdracht.

De gedachte achter dit experiment was dat de beoordeling met de rubric vermoedelijk tot een betere beslissing zou leiden. Dat het inhoudelijk goede essay daarmee hoger zou scoren, dan het inhoudelijk slechte essay. Helaas bleek het tegendeel waar. Daarnaast zou je verwachten dat het gebruik van de rubric het bereik en de variantie van de gegeven scores zou verminderen, maar ook dat werd niet bereikt. De variantie van de scores steeg zelfs aanzienlijk bij het gebruik van de rubric.
Daarnaast werd duidelijk dat de beoordelaars enorm beïnvloed werden door de schrijfvaardigheid van de student. Het goede essay werd door veel beoordelaars lager beoordeeld dan het slechte essay. Bij navraag gaven die beoordelaars aan, dat ze vonden dat de student in het geval van het slechte essay niet de moeite had genomen om er echt aandacht aan te besteden en de spelling te checken. Hoewel taalvaardigheid maar 10 van de 100 punten had mogen bepalen, speelde het in dit experiment dus toch een grotere rol. Terwijl de rubric daar heel duidelijk over was.
Het foute essay ontving in alle gevallen een resultaat ‘geslaagd’, zélfs op het onderdeel dat ging over het beantwoorden van de gestelde vraag (die door deze student niet werd beantwoord). Ook al proberen beoordelaars zich dus te houden aan de rubric, zij werden toch hevig beïnvloed door de intuïtieve indruk van de tekst wanneer ze deze voor het eerst lazen.

Dat zou betekenen dat het gebruik van een rubric toch niet doet wat het beloofd, maar het niet meer gebruiken van een rubric maakt het niet beter. Er zijn onderzoekers (zoals bijvoorbeeld Elliot) die aangeven dat men zich daarom steeds moet beseffen, dat zelfs met een rubric beoordelaarsfouten voorkomen en zij pleiten voor een portfolio-assessment in plaats van enkele momentopnames. Daarnaast is het ontwerp en vooral het trainen van beoordelaars in het gebruik van een rubric heel effectief gebleken. Het trainen van de beoordelaars is in dit experiment minimaal gedaan. Dat kan een grote rol hebben gespeeld in de uitkomst.

 

Meer lezen over deze en andere onderzoeken:

Rezaei, A.R., & Lovorn, M. (2010). Reliability and validity of rubrics for assessment through writing.

Gage, N. L., & Berliner, D. C. (1992). Educational psychology. Wentzville, MO: Borgasorus Books.

Silvestri, L., & Oescher, J. (2006). Using rubrics to increase the reliability of assessment in health classes. International. Electronic Journal of Health Education, 9, 25–30.


Voor onderwijsinstellingen is de stap naar blended learning vaak al enige tijd geleden genomen. Voor een kleine brancheorganisatie die al jaren klassikale cursussen aanbiedt, is dat een heel ander verhaal. Wanneer er geen onderwijskundig personeel is, wie gaat er dan voor zorgen dat die stap wordt gezet? Vereniging ION ging de uitdaging aan. Op 7 februari j.l. presenteerden zij vol trots hun digitale opleiding in een splinternieuwe leeromgeving.

Vereniging ION is de brancheorganisatie voor iedereen die actief is in de oppervlaktebehandeling industrie. Voorbeelden van oppervlaktebehandelingen zijn natlakken, poedercoaten, anodiseren en verzinken. Vereniging ION heeft zo’n 300 leden, bestaande uit organisaties die deze werkzaamheden uitvoeren. Voor hun leden verzorgt de vereniging al sinds jaren verschillende klassikale opleidingen. De start van een opleiding was altijd afhankelijk van het aantal inschrijvingen.

Bij voldoende inschrijvingen (6 cursisten) kon de opleiding van start gaan. Dat zorgde er wel eens voor dat een cursist even moest wachten, voordat hij kon beginnen. Jacques Schreuder, sectorsecretaris, branchemanager en opleidingscoördinator van Vereniging ION, vond dat altijd ontzettend jammer. “Het is belangrijk als een medewerker graag een cursus wil volgen, die nodig is voor het bedrijf waar hij werkt, hij dan ook snel kan beginnen. Dat konden we met onze cursussen niet voor elkaar krijgen en dat was één van de redenen om te kijken naar een andere manier van opleiden.”

Op basis van die wens heeft de vereniging de beleidsvisie ‘Vakgericht Opleiden 2018-2019’ uitgebracht. “Voor het reguliere onderwijs is het heel lastig om ons vak te doceren. Het is vaak niet kostendekkend. Vereniging ION ziet het daarom als haar plicht om de cursussen aan te bieden, zodat de branche wel de gelegenheid heeft om zijn personeel op te leiden”, zegt Jacques. Voor de verschillende cursussen die de vereniging aanbiedt, ontvangen zij jaarlijks zo’n 300 cursisten. Cursisten zijn altijd werkzaam in de praktijk, daarom is aansluiting van het lesmateriaal bij de praktijk ontzettend belangrijk. “We hebben vorig jaar besloten om met RemindoContent ons cursusmateriaal digitaal aan te bieden. Ik ontdekte als groot voordeel dat je daar alle inhoud in een contentbibliotheek opslaat. Het worden dan losse kralen, die ik later samenvoeg als een ketting die de cursus vormt. Dat betekent dat ik de losse kralen dus ook op andere manieren kan samenvoegen, zodat we beter bij de praktijk van de individuele cursist kunnen aansluiten”, aldus Jacques.

Het valt niet mee voor Jacques om de opleiding om te zetten naar de digitale leeromgeving. “We zitten hier op kantoor met z’n tweeën. Er zijn genoeg ideeën, maar eigenlijk te weinig tijd om het uit te voeren. Nu gaan alle cursusmaterialen door mijn handen en krijg ik de neiging om direct alles te verbeteren, maar ik ben nu tot de conclusie gekomen dat het niet kan. Je kunt niet alles in één keer aanpakken. Dus hebben we besloten om doorgaan met de verbouwing, terwijl de winkel open is. Dat betekent dat ik nu al het lesmateriaal er eerst ‘gewoon’ in plaats en we daarna met behulp van de docenten het gaan verbeteren en verrijken met andere werkvormen.

Het gaat niet zonder slag of stoot, maar ik word er wel heel enthousiast van. Ik zie dat we op deze manier toewerken naar een flexibel opleidingssysteem, dat betaalbaar is en aansluit bij de belevingswereld van nu. Het kost alleen tijd.”