De anova is een statistische analyse of een statistische toets die gebruikt wordt voor het vaststellen of de gemiddelden van drie of meer groepen van elkaar verschillen.
Het principe van de toets is relatief eenvoudig. Uit de gemeten waarden van een kenmerk berekent men een algemeen gemiddelde; dit wordt aangeduid met de Griekse letter μ. Ook is voor iedere groep een gemiddelde te berekenen; en dit wordt aangeduid als yj. Er kunnen nu drie soorten varianties worden berekend:
- 1. de variantie als gevolg van de afwijking van de groepsgemiddelden ten opzichte van het algemene gemiddelde;
- 2. de variantie van elke onderzoekeenheid ten opzichte van het groepsgemiddelde;
- 3. de variantie als gevolg van de afwijkingen van de individuele scores ten opzichte van het algemeen gemiddelde.
Men zou kunnen vaststellen hoeveel procent van de groepsvariantie deel uitmaakt van de totale variantie en hoeveel procent van de individuele variantie binnen de groepen deel uitmaakt van de totale variantie. Daar zijn nog wel wat voorwaarden aan verbonden.
Men mag varianties niet zondermeer bij elkaar optellen. Daarom gebruikt men slechts een deel van de formule voor het berekenen van de variantie. Dat mag omdat: de individuele score is hetzelfde als het algemeen gemiddelde plus (het groepsgemiddelde minus het algemeen gemiddelde) plus (de individuele score minus het groepsgemiddelde). Ofwel yij = μ + (yj - μ) + ( yij - yj).
Bij het berekenen van de varianties wordt de sommatie boven de deelstrepen de sum of squares genoemd. Als men de sum of squares deelt door het aantal vrijheidsgraden, krijgt men de mean squares. Een overzicht van de te gebruiken formules staat in het schema hierna:
|
Sum of Squares |
vrijheids- graden
|
Mean Squares
|
Percentage verklaarde variantie
|
Groepsscore |
∑ nj (yj - μ)2
|
j-1
|
∑ nj (yj - μ)2 / (j-1)
|
∑ nj (yj - μ)2 / ∑ (yij - μ)2
|
Individuele score |
∑ (yij - yj)2
|
n-j
|
∑ (yij - yj)2 / (n-j)
|
∑ (yij - yj)2 / ∑ (yij - μ)2
|
Totaal |
∑ (yij - μ)2
|
n-1
|
|
Het berekenen van de toets-waarde (de F) is het delen van de mean square van de groepsscore door de mean square van de individuele score (
zie formule). Dit is een beetje tegen de verwachting in; zonder nadenken zou men op voorhand kiezen voor het totaal. Er wordt echter getoetst als de eigen variantie gedeeld door het restant van de totale variantie (oftewel het totaal minus de eigen variantie).
In onderstaande illustratie staat een rekenvoorbeeld met een beperkte aantal waarnemingen. Uit deze analyse mag men alleen concluderen dat de vier groepsgemiddelden statistisch significant van elkaar verschillen. Waar dat nou precies in zit, is nog niet duidelijk. Tussen groep 1 en 4 zit het grootste verschil, dus dat zou de oorzaak voor het significante resultaat kunnen zijn, maar misschien is er ook nog een statistisch significant verschil tussen groep 1 en 3, of tussen 1 en 2. Dit moet men door middel van aanvullende analyses (t-toetsen) trachten te achterhalen.
|
groep 1
|
groep 2
|
groep 3
|
groep 4
|
waarnemingen |
475 500 515 540 540 545 550 575
|
465 475 485 495 505 515 525 535
|
425 425 450 450 475 500 525 550
|
375 400 425 425 450 500 500 525
|
gemiddelden |
530
|
500
|
475
|
450
|
488,75
|
|
Sum of squares |
Vrijheidsgraden |
Mean squares |
F-waarde |
p-waarde |
Percentage verklaarde variantie |
Groepen
|
28.150
|
3
|
9.383,33
|
5,69
|
< .01
|
38%
|
Individuele scores |
46.200
|
28
|
1.650,00
|
|
62%
|
Totaal |
74.350
|
31
|
|