Toetstheorema van Neyman - Pearson

Als men onderzoek doet met behulp van een steekproef, zal de onderzoeker zich altijd af moeten vragen of hetgeen hij in zijn onderzoek vindt, ook daadwerkelijk voor de hele populatie geldt. Stel nu eens dat er in de werkelijkheid geen verschil is in hoeveel procent van de gevallen trekt men dan een foute conclusie uit het onderzoek? En stel nu eens dat er in de werkelijkheid wel een verschil is, hoe groot is dan de kans dat men uit het onderzoek de conclusie trekt dat er geen verschil is?
      

Het trekken van een foute conclusie op de eerste vraag - gegeven is dan dat er in werkelijkheid geen verschil is maar dat het onderzoek er toe leidt te concluderen dat er wel een verschil is - wordt de fout van de eerste soort genoemd. De kans op een fout van de eerste soort wordt bepaald door het op te stellen betrouwbaarheidsinterval zoals die in stap 3 van de toetsprocedure volgens Fisher is vastgelegd. Indien men het betrouwbaarheidsinterval op 90% heeft gesteld, dan is de kans op een fout van de eerste soort 10%. Het trekken van een foute conclusie op de tweede vraag - gegeven is dan dat er in werkelijkheid wel een verschil is maar dat het onderzoek er toe leidt te concluderen dat er geen verschil is - wordt de fout van de tweede soort genoemd. De kans op een fout van de tweede soort wordt aangeduid met de letter ß. Het complement hiervan is de kans 1 -ß en dit wordt het onderscheidend vermogen of de power van de statistische toets genoemd (zie illustratie). Ook de ß is te berekenen: het wordt bepaald door de steekproefgrootte, het vastgestelde betrouwbaarheidsinterval en het gevonden verschil tussen A en B.

Het toetstheorema van Neyman-Pearson lijkt heel bruikbaar, en een aanvulling op het toetstheorema van Fisher. Men moet er voorzichtig mee zijn. In feite stelt men niet één hypothese op maar eigenlijk twee. Deze hebben gewoonlijk de vorm van:

Ho    gemiddelde   =   < waarde >
Ha    gemiddelde   =   < waarde>

Bijvoorbeeld, stel als nulhypothese ‘de lengte van de Nederlander is 186 cm’ en als alternatieve hypothese ‘de lengte van de Nederlander is 190 cm’. Indien men nu een steekproef trekt uit de Nederlandse bevolking en daaruit komt de waarde van 189, dan kan men de kanswaarde aangeven waarin men concludeert om de nulhypothese aan te nemen, respectievelijk om de alternatieve hypothese aan te nemen.
      

Op zich is een uitkomst uit deze toetsprocedure niet zo interessant. Men had net zo goed voor de alternatieve hypothese een waarde van 196 cm kunnen nemen in plaats van 190 cm. Er  zijn dan ook talloze powerwaarden te berekenen. Daarom berekent men de power vaak achteraf: nadat uit de toetsprocedure van Fisher een significant verschil is gebleken, stelt men de power van de uitkomst vast.

Het is op zich vrij eenvoudig de power van een statistische uitkomst te beïnvloeden. In de illustratie worden drie situaties uitgebeeld. In de eerste situatie (figuur 2.2-a) is sprake van een zwakke power van de toets en in de tweede situatie (figuur 2.2-b) is er sprake van een sterke power als gevolg van het vergroten van de steekproef, en in de derde situatie (figuur 2.2-c) is sprake van een sterke power door het onderscheid groter te veronderstellen.

De meeste statistiekboeken laten tabellen voor de ß achterwege. Cohen (1977) is een uitzondering: dit boek gaat alleen over poweranalyse. Het voert te ver om voor alle te onderscheiden analyses het onderscheidend vermogen van de analyse op te stellen; dit zou neer komen op het vertalen van het boek van Cohen. Daarom beperken we ons tot een voorbeeld.
      

Stel nu eens dat er een vragenlijst is afgenomen onder twee groepen van elk 30 personen. De gegevens worden getoetst op een betrouwbaarheidsinterval van 90%; dit is alpha is .05 bij tweezijdige toetsing. Bij één van de vragen wordt er een verschil geconstateerd tussen beide groepen van 1/2 standaard deviatie. Indien er nu uitsluitend volgens het theorema van Fisher wordt getoetst zou de conclusie luiden dat er een significant verschil is. Indien de onderzoeker nu ook het theorema van Neyman-Pearson in zijn conclusie betrekt dan luidt de conclusie dat het weliswaar juist is dat er volgens het onderzoek er een significant verschil is op alpha = .05 niveau, maar dat het onderscheidend vermogen niet echt hoog is. Uit de tabel voor de power (Cohen, 1977, blz. 36) blijkt dat de power slechts 33% is; er is dus 67% kans dat de getrokken conclusie in werkelijkheid een verkeerde is.

Copyrights

© Foeke van der Zee / BMOOO - Woordenboek onderzoek, methodologie en statistiek

Meer MOA


Kennispartners van Daily Data Bytes

MOA is een

CRKBO Instelling CMYK

Contact

MOA, Expertise Center voor Marketing-insights, Onderzoek & Analytics

VIDA-gebouw
Kabelweg 57, 2e verdieping
1014 BA Amsterdam
+31 20 5810710
Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.