Regressieanalyse (univariate regressie)

De maten voor samenhang hebben alle gemeen dat de uitkomst 0 betekent dat er helemaal geen relatie is en de uitkomst 1 (of -1) dat er een perfecte relatie is. De perfecte relatie geeft aan dat er een één op één relatie is, oftewel een volstrekt rechte lijn. Dat is mooi, want als men de score op het ene kenmerk weet, dan weet men de score op het andere kenmerk ook. Hoe de scores onderling verbonden zijn, moet nog wel berekend worden.

In de algebra heeft een rechte lijn de formule van y =  a + bx, waarbij de a en de b constanten zijn die de kenmerken van de rechte lijn bepalen. De a geeft aan waar de lijn de y-as passeert en de b geeft aan hoe schuin die lijn loopt. Op de middelbare school werd de functie gegeven (bijvoorbeeld: y = 2 + 3x) of leerde men die functie te berekenen uit twee punten (bijvoorbeeld uit de punten  (0,1) en (1,3) ). In de statistiek gebeurt hetzelfde: men moet de lijn berekenen op grond van de gegeven waarden op de variabelen. Er is echter één groot verschil: men neemt nu niet willekeurig twee punten, maar men gebruikt alle punten die gevormd worden door de waarden op de beide variabelen (zie de illustratie hieronder).

Illustratie regressielijnen

De formule voor het bereken van de b luidt als volgt:

Formule voor het berekenen van b in de regressieanalyse

De b is ook te berekenen uit de productmoment correlatiecoëfficiënt:

null

En nu men de waarde van b weet kan men ook relatief eenvoudig de waarde van a vinden:

Formule voor het berekenen van a in de regressieanalyse

De formule voor de lijn die nu ontstaat, kan men opvatten als de beste rechte lijn: de afwijking van alle punten die in ogenschouw zijn genomen ten opzichte van deze lijn is het kleinst. Elke willekeurige andere lijn zal een grotere afwijking laten zien.

Ter illustratie een voorbeeld. Stel men moet een voorspelling maken over de lengte van een vrouw. De beste voorspelling is dan precies de gemiddelde lengte van alle vrouwen. Nu heeft men vastgesteld dat lange mannen met lange vrouwen trouwen en korte mannen met korte vrouwen. Daarvoor geldt de formule van  y = -0,10 + 1,02x,  waarbij de y staat voor de lengte van de vrouw en de x voor de lengte van de man. Als men u vertelt dat de lengte van de man 1,98 meter is, wat zou u dan als lengte van de vrouw  wil schatten? U kunt daarvoor het beste de gegevens in de formule invullen. De uitkomst is 1,9196 cm. Dit zal wel niet helemaal kloppen, maar uw voorspelling is wel beter dan wanneer u helemaal niets zou weten.

Dit proces is statistisch uiteen te rafelen in verschillende soorten variantie. De totale variantie  (yi - y) bestaat uit een deel verklaarde variantie (yi - µ) ; waarbij  de voorspelde waarde op de lijn is) en een deel onverklaarde variante (µ - y). Rekenkundig staat er: (yi - y) = (yi -µ ) + (µ - y). Dit gegeven laat zich verder uitwerken als een anova (analysis of variance).

Het voert te ver om dat aan te tonen, maar het percentage verklaarde variantie is gelijk aan de productmoment correlatiecoëfficiënt in het kwadraat maal 100 (oftewel: rxy2 * 100%); een samenhang van 0,8  levert dus 64% verklaarde variantie op. Gevoelsmatig is dit is wel logisch; een samenhang van 1,0 levert 100% verklaarde variantie, en een samenhang van 0 levert 0% verklaarde variantie.

Copyrights

© Foeke van der Zee / BMOOO - Woordenboek onderzoek, methodologie en statistiek

Meer MOA


Kennispartners van Daily Data Bytes

MOA is een

CRKBO Instelling CMYK

Contact

MOA, Expertise Center voor Marketing-insights, Onderzoek & Analytics

VIDA-gebouw
Kabelweg 57, 2e verdieping
1014 BA Amsterdam
+31 20 5810710
Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.