Regressieanalyse (multipele regressie)


De situatiue van de univariate regressie
Al gegevens aan elkaar gerelateerd zijn (vast te stellen door het bepalen van de samenhang in de vorm van een productmoment correlatie), dan kan men voorspellingen doen. Bij de univariate regressieanalyse is daarvoor het voorbeeld van huwelijkspartners genomen. Men kan een betere voorspelling doen over de lengte van de vrouw als men de lengte van de man weet. De relatie tussen y en x is in een algebraïsche formule op te schrijven:

  y    = a   +   b1x1

waarbij:  y  = afhankelijke variabele
  a  = intercept
  b1 = de richting en kracht van de variabele
  x1 = de onafhankelijke / voorspellende variabele

Het berekenen van de a en b1 gebeurt met behulp van de formules zoals gepresenteerd bij de univariate regressieanalyse.


De situatie van de multipele regressie
Meestal is het niet één aspect dat meehelpt een betere voorspelling te doen, maar is het vaak een combinatie van een aantal aspecten. Bij een voorspelling welk inkomen een persoon heeft, zou men zonder enige nadere kennis het beste kunnen kiezen voor het algemeen gemiddelde. De voorspelling wordt beter als ook bekend is welke opleiding de persoon heeft gevolgd, diens leeftijd, het milieu van herkomst, de opleiding van de vader, de opleiding van de moeder, beroep vader, beroep moeder. Deze en nog veel meer factoren zijn op de een of andere manier van invloed op het inkomen. Als er een regressielijn opgesteld zou moeten worden, dan zou de volgende algemene formule van toepassing zijn:

  y    = a   +   b1x1   +   b2x2   +   b3x3   +    .......... +   bzxz

waarbij:  y  = afhankelijke variabele
  a  = intercept
  b1 tot bz = de richting en kracht van de variabele
  x1 tot xz = de onafhankelijke / voorspellende variabele

 
Het berekenen van de regressiecoëfficiënten (b1 tot bz)
Nu men te maken heeft met meerdere voorspellende variabelen, wordt het iets lastiger om de regressielijn te berekenen dan in de univariate regressieanalyse. Men moet rekening houden met de voorspellende kracht van de andere variabelen. Er zijn drie procedures om de gewichten vast te stellen: een stappenprocedure in voorwaartse richting, een stappenprocedure in achterwaartse richting, en een in te stellen eigen procedure.

Bij de stappenprocedure in voorwaartse richting berekent de computer eerst de b-waarde voor de voorspellende waarde met de hoogste correlatiecoëfficiënt (want die heeft de meeste samenhang). Daarna berekent de computer de b-waarde voor de voorspellende variabele die daarna de hoogste samenhang vertoont (waarbij eerst de samenhang van de eerste variabele met het de afhankelijke variabele (y) eruit wordt gehaald). En in de derde, vierde en alle erna volgende stappen, wordt er steeds een variabele toegevoegd (waarbij steeds weer eerst de samenhang van de voorgaande variabelen met de afhankelijke variabele eruit wordt gehaald). Meestal is er een afbreekroutine: als een nieuw toe te voegen variabele niet meer substantieel bijdraagt aan de verklaarde variantie, stopt het programma.

De stappenprocedure in achterwaartse richting verloopt omgekeerd. De computer start de procedure door alle voorspellende variabelen in de analyse op te nemen. Daarna laat de computer een variabele weg, en toetst of er sprake is van substantieel verlies in de verklaarde variantie. Mocht dat niet zo zijn, dan wordt er weer een variabele uit het analyse model weggelaten. De procedure stopt als er wel substantieel verlies optreedt.

De voorwaartse procedure en de achterwaartse procedure leveren meestal hetzelfde resultaat op. Soms is er net een klein verschil omdat de afbreekroutine net iets anders is.

Als men gebruik maakt van een eigen procedure, stelt men zelf een volgorde op van de variabelen die in het analysemodel moeten worden opgenomen, of stelt men de afbreekroutine anders in.

 
Het percentage verklaarde variantie (R2)
Ook voor de multipele regressie geldt dat men de totale variantie steeds beter kan verklaren. In woorden luidt dit als volgt: totale variantie is te verklaren door variabele 1 + te verklaren door variabele 2 + ..... + te verklaren door variabele z + niet te verklaren variantie. Rekenkundig luidt de formule:

(yi  - y)     =   (yi - y1)   +   (y1 - y2)   +   (y2 - y3)   +   .....  +   (yz - y)   +   e

Er zijn filosofen die stellen dat als men maar lang genoeg door blijft gaan met het vinden van verklarende variabelen, dat dan alles verklaard kan worden. Oftewel de ‘e’ van error, die staat voor de onverklaarde variantie in de bovenstaande formule, bestaat niet. Daar kan men over twisten.

Bij de univariate regressie (slechts één voorspellende variabele) is het percentage verklaarde variantie overeenkomstig aan rxy2* 100%. In de bovenstaande formule is dit overeenkomstig het eerste stukje, namelijk: (yi - y1). Als de tweede variabele substantieel iets toevoegt (multipele regressie), dan is dat altijd minder dan wanneer men deze afzonderlijk zou hebben opgenomen. Bijvoorbeeld: variabele x1 heeft een pm-correlatie van 0,60 met de afhankelijke variabele y, en variabele x2 heeft een pm-correlatie van 0,50. Met de eerste variabele verklaart men dus 36%, en met de tweede 25%. Indien men beide variabelen tegelijk in het analysemodel opneemt, dan is de verklaarde variantie maximaal 51%. Altijd - nou ja een uitzondering daargelaten - zal de verklaarde variantie niet 51% zijn, maar een stuk lager, bijvoorbeeld slechts 42%. Dat komt omdat de eerste verklarende variabele ook deels samenhangt met de tweede verklarende variabele. Er wordt dus steeds een beetje verklarende variantie toegevoegd. Het percentage verklaarde variantie wordt nu niet meer aangeduid met r2 maar met R2. Dit noemt men de multipele correlatiecoëfficiënt. Het maakt duidelijk dat het niet om een samenhang tussen twee variabelen gaat, maar dat er meerder variabelen verantwoordelijk zijn.

 
Het niveau van de variabele is van belang
Regressieanalyse kan alleen worden uitgevoerd als zowel de afhankelijke variabele als de onafhankelijke / voorspellende variabelen zich op interval / ratio niveau bevinden. Als een of meerdere onafhankelijke / voorspellende variabelen zich op nominaal of ordinaal niveau bevinden kan in beginsel de multipele regressie analyse niet meer worden uitgevoerd. De variabelen die niet voldoen aan deze vereisten, kan men het beste weglaten uit de analyse. Het alternatief is ze toch opnemen in de analyses als een dummy-variabele (voor variabelen op nominaal niveau) of een verkapte variabele op interval niveau (voor variabelen op ordinaal niveau). Nog een alternatief is het analyseren van de gegevens met een programma voor nominale/ordinale data. Om dan tot significante resultaten te komen, zijn vaak grote aantallen onderzoekseenheden nodig. Men moet dan eerder denken in duizendtallen dan in honderdtallen.

Copyrights

© Foeke van der Zee / BMOOO - Woordenboek onderzoek, methodologie en statistiek

Meer MOA


Kennispartners van Daily Data Bytes

MOA is een

CRKBO Instelling CMYK

Contact

MOA, Expertise Center voor Marketing-insights, Onderzoek & Analytics

VIDA-gebouw
Kabelweg 57, 2e verdieping
1014 BA Amsterdam
+31 20 5810710
Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.