Uit: F. van der Zee: Kennisverwerving in de Empirische Wetenschappen, de methodologie van wetenschappelijk onderzoek. BMOOO, Groningen, 2004.
Het theorema voor de toetsprocedure zoals die door Fisher is opgesteld bestaat uit een aantal stappen die als volgt kunnen worden omschreven:
Stap 1: Stel de nul-hypothese en de alternatieve hypothese op
In iedere statistische analyse luidt de vraag of er een verschil is. Er zijn twee antwoorden mogelijk op deze vraag: 1) er is geen verschil of 2) er is wel een verschil. Het eerste antwoord noemen we de nulhypothese en wordt aangeduid met H0; het tweede antwoord noemen we de alternatieve hypothese en wordt aangeduid met Ha. Dat de nul-hypothese luidt dat er geen verschil is, wordt wel de conservatieve methode genoemd. Het is behoudend van aard: de onderzoeker moet maar proberen aan te tonen dat er wel een verschil is.
De op te stellen alternatieve hypothese zou ook al wat nader gepreciseerd kunnen worden door de richting aan te geven. Daaronder verstaat men dat de onderzoeker verwacht dat het één groter of juist kleiner is dan het ander. Indien de richting van het verschil wordt aangegeven, spreekt men van eenzijdige toetsing. Indien de richting niet wordt aangegeven, spreekt men van tweezijdige toetsing.
Met het bovenstaande in gedachten luiden de op te stellen hypotheses als volgt:
H0: A = B H0: A = B H0: A = B
Ha: A <> B Ha: A > B Ha: A < B
Een alternatieve notering is de volgende:
H0: A - B = 0 H0: A - B = 0 H0: A - B = 0
Ha: A - B <> 0 Ha: A - B > 0 Ha: A - B < 0
Stap 2: Stel vast welke toets er gebruikt moet worden
De keuze van de toets hangt samen met de opgestelde hypotheses. Het maken van een goede keuze is afhankelijk van een aantal factoren. Om die keuze te vergemakkelijken kan een leidraad met een reeks vragen worden opgesteld. De startvraag luidt: moet er getoetst worden naar: 1) of er aan de premissen wordt voldaan, 2) of er een verschil is, 3) of er een samenhang is, of 4) overige vormen van toetsen. De vervolgvraag luidt: op welk niveau zijn de variabelen gemeten, is dat op nominaal, ordinaal, interval of ratio niveau. Door deze vragen te beantwoorden komt de onderzoeker automatisch uit bij de toets die hij zou moeten uitvoeren.
Tenslotte zal aangegeven moeten worden of er covariabelen in de analyse opgenomen moeten worden of een wegingsfactor.
Stap 3: Specificeer het significantieniveau
Uit de manier waarop de hypotheses zijn opgesteld blijkt dat slechts bij hoge uitzondering de uitkomst uit A - B precies nul zal zijn. Met andere woorden er zal vrijwel altijd een verschil van nul worden gevonden. Toch is niet de conclusie te rechtvaardigen dat een verschil van 0,001 tussen twee gemiddelden echt verschillend is; de conclusie zou eerder luiden dat de gemiddelden nagenoeg gelijk zijn. Wanneer zeggen we nu dat er inderdaad een verschil is? Hoe ver moet de uitkomst van 0 af liggen?
Om hier een antwoord op te geven stelt men altijd een interval op rond het verwachte antwoord, dus rond het verschil van nul. Van belang is aan te geven hoe de veronderstelde verdeling er uitziet: is die normaal-verdeeld, t-verdeeld, chi-kwadraat verdeeld, of F-verdeeld. Vervolgens stelt men vast hoe ver de te berekenen waarde van nul af moet liggen om inderdaad te zeggen of het gevonden verschil van nul afwijkt. Deze keuze is arbitrair. Traditioneel wordt dit interval vastgesteld op 90%, 95%, 99% of zelfs 99,9%. Bij bijvoorbeeld een keuze van 90% stelt men dat 90% van de uitkomsten niet als afwijkend van nul mogen worden beschouwd. Valt de uitkomst binnen dit interval dan zegt men dat er geen significant verschil is; valt te uitkomst buiten dit interval dan zegt men dat er een significant verschil is. Gebruikelijk is om niet het betrouwbaarheidsinterval aan te geven maar het complement. Dit complement wordt aangeduid met de letter ". Men toetst dan op "= .10 niveau; of " = .05; of " = .01 etc.
De " ligt altijd aan het uiteinde van het betrouwbaarheidsinterval. Hierbij moet rekening worden gehouden met de opgestelde hypothese. Indien men eenzijdig toetst dan ligt de " aan één kant van het betrouwbaarheidsinterval. Echter, indien men tweezijdig toetst dan ligt het betrouwbaarheidsinterval rond het gemiddelde en wordt " in tweeën geknipt: aan elke helft van het interval ligt evenveel. Als voorbeeld: indien men tweezijdig toetst met een betrouwbaarheidsinterval van 95%, dan heeft men twee " gebieden van elk 2,5%.
Stap 4: Bereken de toets-waarde uit de data m.b.v. de vastgestelde toets
Deze stap is simpel te omschrijven. Het houdt in dat de onderzoeker uit de verzamelde gegevens de waarden berekent die voor het invullen van de formule noodzakelijk zijn. De uitkomst uit deze formule wordt de toetswaarde genoemd.
Rekentechnisch kan dit een lastige stap zijn, zeker als de gegevens met de hand of met een rekenmachine uitgevoerd moeten worden en er veel gegevens zijn verzameld. Gelukkig beschikt men tegenwoordig over computers die behulpzaam kunnen zijn. Ook zijn er statistische pakketten in de handel die speciaal gericht zijn op het verwerken van onderzoeksgegevens. Men moet echter voorzichtig zijn met het rücksichtslos uitvoeren van statistische analyses met behulp van deze pakketten. In bijna alle analyses worden er in de pakketten met standaard instellingen gewerkt die voor het onder handen zijnde onderzoek niet hoeven te gelden. De onderzoeker dient te weten van welke standaardinstellingen het pakket uitgaat en moet in staat zijn deze zo nodig aan te passen.
Stap 5: Stel de kritieke waarde vast
Ook deze stap is simpel te omschrijven. Bij de gegeven formule staat ook aangegeven volgens welke verdeling er getoetst moet worden. Tevens heeft men in stap 3 reeds het betrouwbaarheidsinterval vastgelegd. In stap 5 hoeft er alleen maar gekeken te worden waar de grenswaarde van de verdeling bij het gegeven betrouwbaarheidsinterval ligt. Dit noemt men de kritieke waarde. Dit gegeven is op te zoeken in een tabel. Het nadeel van een tabel is dat er niet altijd alle waarden die voor kunnen komen in de tabel staan. Meestal maakt men dan gebruik van een schatting door middel van interpolatie: de kritieke waarde ligt tussen twee andere waarden in die wel in de tabel staan. Indien noodzakelijk is de kritieke waarde wel heel nauwkeurig te berekenen.
Stap 6: Stel vast of de toetswaarde groter dan wel kleiner is dan de kritieke waarde
In deze stap worden de getallen uit stap 4 en 5 met elkaar vergeleken. Als de toetswaarde binnen het betrouwbaarheidsinterval valt dan zegt men dat er geen significant verschil is. Indien de toetswaarde groter is dan de kritieke waarde dan zegt men dat het verschil significant is.
Statistische pakketten geven niet de kritieke waarde in hun uitvoer. De reden daarvoor is dat de computer niet weet tegen welke alpha er getoetst is. In plaats daarvan geven de pakketten de kanswaarde van de toetswaarde op de schaal van het betrouwbaarheidsinterval, bijvoorbeeld: p = .0298. De onderzoeker kan nu zelf beslissen of deze waarde binnen of buiten het betrouwbaarheidsinterval valt. De in het voorbeeld gegeven kanswaarde is significant op " = .05 niveau indien er eenzijdige is getoetst; het is niet significant op " = .05 als er tweezijdig is getoetst.
Stap 7: Trek een conclusie
De laatste stap is het trekken van een conclusie. De beginnende onderzoeker zal stellen dat het resultaat van de analyse voldoende waarborg geeft voor het trekken van een juiste conclusie: indien de toetswaarde de kritieke waarde overschrijdt is er een verschil. Zo eenvoudig ligt het echter niet. De ervaren onderzoeker zal in het trekken van een conclusie rekening houden met drie aspecten: de grootte van de steekproef, de grootte van de toetswaarde en het vastgestelde betrouwbaarheidsniveau (de ").
Wat betreft de grootte van de steekproef moet vastgesteld worden dat hoe groter de steekproef des te eerder er een significant resultaat uit de analyse komt. Het is zelfs zo, dat als de steekproef maar voldoende groot is elk willekeurig verschil significant uit de analyse komt. Dus ook het zeer kleine verschil tussen twee gemiddelden van 0,001 is statistisch aan te tonen.
Wat betreft de grootte van de toetswaarde moet worden opgemerkt dat deze waarde net binnen of net buiten het betrouwbaarheidsinterval kan vallen. Waar deze precies terecht komt, is mede afhankelijk van de steekproefgrootte. In de vorige alinea werd al vastgesteld dat als de steekproef maar voldoende groot is er wel een significant resultaat uitkomt. Hoe verder de toetswaarde de kritieke waarde overschrijdt des te zekerder kan de onderzoeker de conclusie trekken dat het verschil significant is.
Tenslotte moet er op gewezen worden dat het betrouwbaarheidsniveau arbitrair gekozen is. Hoewel deze in principe vooraf vastgelegd zou moeten worden, laat de praktijk zien dat dat niet gebeurt. Zeker als er veel gegevens zijn verzameld dan wordt de " niet meer vooraf voor iedere afzonderlijke analyse opgesteld. Vaak vergeet men ook de richting van de alternatieve hypothese vooraf vast te leggen. Daarom wordt in zijn algemeenheid getoetst tegen " = .05 en wordt op ad hoc basis achteraf vastgesteld of er één- of tweezijdig getoetst moest worden.
Het vereist enige ervaring van de onderzoeker om op grond van de analyse resultaten de juiste conclusie te trekken. Tevens hangt dit samen met de visie van de onderzoeker op het gebruik van statistiek. Er kunnen twee visies worden onderscheiden. De eerste is die van de onderzoeker die een verschil alleen maar als een significant verschil opvat als de statistiek dat heeft aangetoond. De tweede is die waarin de onderzoeker statistiek toepast als een ondersteuning van het betoog van zijn onderzoek. De laatstgenoemde stelt zich kritisch op. Hij stelt zichzelf als het ware de vraag: ‘Hoe zeker kan ik zijn dat de conclusie zoals die uit de resultaten naar voren komt ook voorkomt in de werkelijkheid?’ En met deze vraag zit men in het toetstheorema van Neyman-Pearson.
© Foeke van der Zee / BMOOO - Woordenboek onderzoek, methodologie en statistiek