Valide toetsen bestaan niet

“De toets moet valide zijn”, daar zijn de meeste toetsmakers het wel over eens. Maar wat als een

“De toets moet valide zijn”, daar zijn de meeste toetsmakers het wel over eens. Maar wat als een valide toets helemaal niet bestaat? Waar ben je dan mee bezig als het gaat om validiteit?

Validiteit is misschien wel het belangrijkste kwaliteitsaspect van een goede toets. In de meest eenvoudige beschrijving van validiteit geeft het een antwoord op de vraag: ‘meet de toets wat het beoogt te meten?’ We spreken dan vaak over een valide toets. Hoewel het heel verleidelijk is om te zeggen, klopt het niet helemaal: het bereiken van een valide toets is niet mogelijk. Validiteit heeft te maken met de interpretatie die wordt gegeven aan de toetsscore. Uit de toets komt een score, wat betekent die score? Is iemand geslaagd of gezakt? Kun je op basis van die score met zekerheid zeggen dat iemand die gezakt is niet in staat is om het vak in de praktijk uit te oefenen? Klopt de toets wel bij wat je wilde meten? Je spreekt daarmee dus niet over valide toetsen, maar een valide interpretatie van de toetsscore. Je valideert de beslissing die je neemt op basis van de scores die uit de toets komen.

Validiteit heeft altijd een context nodig en dus een interpretatie. Dezelfde toets kan zowel in grote mate valide zijn als in gebreke zijn, als het gaat om validiteit. Als toetsresultaten voor meerdere doelen worden gebruikt kan dat het geval zijn. Bijvoorbeeld voor het monitoren van iemands voortgang en kijken of iemand geschikt is voor een bepaalde vervolgtraining. In dat geval heeft een toets meerdere doelen en kan de toets voor het ene doel in grote mate valide zijn en voor een ander doel weinig valide zijn.

Een toets kan zelfs voor hetzelfde doel in twee afnames verschillend zijn in mate van validiteit. Zo heeft de ene groep wellicht veel last gehad van de drukte in de examenzaal. Kun je dan wel van de toetsresultaten op aan? Meet het dan nog steeds de toetscriteria die je wilde meten of meet je de mate waarin iemand zich in die onrust kon concentreren op de toets? Terwijl dezelfde toets die afgenomen werd onder goede omstandigheden, een behoorlijk valide interpretatie opleverde.

Er zijn volgens Messick (1994) twee grote bedreigingen voor validiteit:

  • Construct underrepresentation

In dit geval meet de toets niet de belangrijke aspecten van het te meten construct. Het kan bijvoorbeeld zo zijn dat de toets alleen sommige toetscriteria uitgebreid meet en andere toetscriteria helemaal niet aan bod komen. Bijvoorbeeld wanneer een docent een toets maakt en vooral veel vragen stelt over het onderwerp waar hij heel enthousiast over is. Er is ook sprake van construct underrepresentation, wanneer je op basis van de toetsresultaten niet kunt zeggen of de kandidaat het leerstofdomein ook daadwerkelijk beheerst. Dat is bijvoorbeeld het geval wanneer iemand alleen een schriftelijk examen krijgt over iets wat hij in de praktijk altijd fysiek zal moeten uitvoeren. Kun je dan wel met zekerheid zeggen dat deze toets meet of de kandidaat in de praktijk de vaardigheden kan uitoefenen?

  • Construct-irrelevant variance

Er is sprake van construct-irrelevante variance wanneer de toets ook zaken meet die voor het doel van de toets niet van belang zijn. Een voorbeeld van construct-irrelevant variance is wanneer een toets rekenvaardigheid hoort te toetsen, maar de vragen zijn zo lang en uitgebreid beschreven dat het eerder leesvaardigheid toetst. 

Beide bedreigingen kunnen effect hebben op de interpretatie van dezelfde toets. Je vraagt je daarbij steeds af: zijn de interpretaties van de toetsscores geschikt voor het doel van de toets en kloppen ze? Neem ik op basis van de toetsscores in combinatie met het doel van de toets nu de juiste beslissing?

Om goed antwoord te kunnen geven op deze vraag is het belangrijk om validiteit als gezamenlijke verantwoordelijkheid te zien van zowel toetsontwikkelaars, docenten, examencommissie-leden als zelfs de surveillanten en de kandidaten. Je zult zien dat iedereen in zijn rol een andere visie heeft op de validiteit. Met die informatie kun je werken aan het verbeteren van je toetskwaliteit.

Bronnen: 

  • Reynolds, C. R., Livingston, R. B., Willson, V. L., & Willson, V. (2010). Measurement and assessment in education. Upper Saddle River: Pearson Education Internation
  • Messick, S. (1994). The interplay of evidence and consequences in the validation of performance assessments. Educational Researcher, 23, 13-23.