Guide: Kontrollvariabler i regressionsanalys

I den här guiden ska vi gå igenom:

  • Hur samband kan verka vara mer positiva än vad de egentligen är
  • Hur samband kan verka vara mer negativa än vad de egentligen är
  • En lathund för vilka effekter man ska förvänta sig av utelämnade variabler

I bivariat regressionsanalys kan man undersöka om det finns ett linjärt samband mellan två variabler. Men ofta talar man om att man behöver föra in kontrollvariabler i regressionsanalysen. Anledningen är att om man missar att ta med de relevanta kontrollvariablerna riskerar att dra felaktiga slutsatser om huvudsambandet. I den här guiden ska vi gå igenom de två sätt på vilket man kan dra felaktiga slutsatser, och vad som man kan förvänta sig händer med huvudsambandet när man introducerar olika kontrollvariabler.

Innehåll:
Samband som verkar vara mer positiva än vad de egentligen är
Risk för spuriositet
Hur man kan tänka sig att kontrollvariabler fungerar
Resultat av analys med kontrollvariabel
Samband som verkar vara mer negativa än de egentligen är
Risk för undertryckt samband
Resultat av analys med kontrollvariabel
En lathund för vilka effekter man ska förvänta sig av kontrollvariabler

Samband som verkar vara mer positiva än vad de egentligen är

Det vanligaste skälet till att man inkluderar kontrollvariabler i en regressionsanalys är att man vill utesluta att ett eventuellt samband är ett så kallat spuriöst samband. Ett spuriöst samband uppstår när man tycker sig se ett samband mellan två variabler, men samvariationen i själva verket beror på att de båda variablerna orsakas av en tredje variabel. Detta blir ett allvarligt problem när man vill uttala sig om kausala effekter, det vill säga om att den ena variabeln påverkar den andra.

Jag tänkte illustrera det här problemet genom att undersöka om demokrati leder till större energianvändning i ett land. Man kan till exempel tänka sig att demokrati leder till ökade krav på levnadsstandard från tidigare exkluderade delar av befolkningen, vilket ökar energianvändningen, vilket kan vara dåligt ur miljösynpunkt. I Bild 1 illustreras hypotesen: Mer demokrati förväntas leda till mer energianvändning i ett land.

Data för att undersöka hypotesen kommer från Quality of Government-datamängden. Demokrati mäts genom variabeln fh_ipolity2 som kombinerar data från Freedom House och Polity. Högre värden betyder mer demokrati. Energianvändning mäts genom variabeln wdi_epc som är en del av World Development Indicators och mäter andelen förbrukad el i Kilowattimmar per invånare. I Tabell 1 redovisas resultaten (här kan man läsa om hur man gör en snygg tabell ifrån SPSS-outputen).

I Tabell 1 ser man att det finns ett positivt samband mellan demokrati och energikonsumtion, som förväntat från hypotesen: för varje steg högre ett land ligger på demkrati skalan (0-10) förväntas energikonsumtionen vara 480,1 KwH högre per invånare. Interceptet visar att energikonsumtionen per invånare i ett land med värdet 0 på demokratiskalan förväntas vara 609,04 KwH. Den positiva effekten av demokrati är också signifikant.

Risk för spuriositet

Är det då rimligt att tro att det rör sig om en kausal effekt, det vill säga att mer demokrati verkligen leder till mer energikonsumtion? Det är inte säkert, om det finns något annat som hänger ihop med demokrati, och samtidigt är det som verkligen orsakar högre energikonsumtion.

Min kandidat till en sådan variabel är ekonomisk utveckling. Det är mer sannolikt att ett land demokratiserar om det är ekonomiskt utvecklat, och mer ekonomisk utveckling kan också tänkas leda till mer energikonsumtion. Det leder alltså till förväntade samband mellan variablerna som ser ut som i Bild 2:

Om sambanden mellan variablerna ser ut som i Bild 2 finns det en risk att det samband vi hittade mellan demokrati och energianvändning är spuriöst. Demokratiska länder är också mer ekonomiskt utvecklade, och det är på grund av den ekonomiska utvecklingen som de förbrukar mer energi.

Innan vi undersöker detta i en regressionsanalys tar vi fram de bivariata korrelationerna mellan variablerna för att undersöka om vi har tänkt rätt i Bild 2. Måttet på ekonomisk utveckling är logaritmen av BNP per capita (undp_gdp). Högre värden indikerar alltså högre ekonomisk utveckling. I Tabell 2 redovisas korrelationsmatrisen för de tre variablerna.

I Tabell 2 ser man, som vi nyss konstaterat, att det finns ett positivt samband mellan energikonsumtion och demokrati. Men ekonomisk utveckling är också positivt korrelerat med energikonsumtion (och sambandet är starkare än sambandet mellan demokrati och energikonsumtion), och ekonomisk utveckling har också ett positivt samband med demokrati. Det verkar alltså finnas en risk att sambandet mellan demokrati och energikonsumtion är spuriöst.

Hur man kan tänka sig att kontrollvariabler fungerar

För att utesluta att så är fallet behöver man kontrollera för nivån av ekonomisk utveckling. Det är väldigt enkelt i regressionsanalys – man lägger bara in variabeln för ekonomisk utveckling som en ytterligare oberoende variabel i rutan ”Independents” i SPSS. Men vad är det då som händer?

Enkelt uttryckt kan man säga att i regressionsanalysen där både demokrati och ekonomisk utveckling ingår som oberoende variabler så jämför vi länder med samma ekonomisk utveckling som är demokratier med länder som inte är demokratier för att se om det finns någon effekt av demokrati.

Vi jämför också länder med samma nivå av demokrati som är högt ekonomiskt utvecklade med länder som är lågt ekonomiskt utvecklade för att se om det finns en effekt av ekonomisk utveckling.

Om då effekten av den ena variabeln försvinner medan den andra kvarstår tyder det på att den verkliga effekten är av den andra variabeln.

Resultat av analys med kontrollvariabel

Vi gör därför en ny analys, där vi inkluderar två oberoende variabler: Demokrati och ekonomisk utveckling. Resultaten presenteras i Tabell 3. Resultaten från den första bivariata analysen är med som jämförelse (i Modell 1).

Effekten av demokrati skiljer sig väldigt mycket mellan Modell 1 och Modell 2. I Modell 1 var den starkt positiv och signifikant, medan den i Modell 2 är negativ och inte signifikant. Att den inte är signifikant betyder att vi kan tänka att den i princip är 0: demokrati har ingen effekt på energikonsumtionen.

Ekonomisk utveckling har däremot en positiv och signifikant effekt. Eftersom den oberoende variabeln är logaritmerad betyder det att vi kan tolka effekten som en procentuell ökning. Närmare bestämt så kan vi dela koefficienten med 100, och då få fram den förväntade ökningen i energikonsumtion om den BNP per capita ökar med 1 procent. Om BNP per capita ökar med en procent jämfört med vad den var tidigare förväntas alltså energikonsumtionen öka med 33 KwH.

Att interceptet blir negativt är inte konstigt, eftersom det visar förväntad energikonsumtion i länder med 0 på de oberoende variablerna – alltså ett extremt fattigt land utan någon som helst demokrati. Sådana länder finns inte i verkligheten, och därför blir interceptet konstigt.

Vi ser nu alltså att sambandet mellan demokrati och energikonsumtion var spuriöst – sambandet berodde på en tredje variabel, ekonomisk utveckling. När vi tog hänsyn till den fanns det ingen skillnad att tala om mellan demokratiska och ickedemokratiska länder.

Samband som verkar vara mer negativa än de egentligen är

Spuriösa samband stöter man ofta på, och det är ofta anledningen till att man lägger in kontrollvariabler i analysen. Först påvisar man ett bivariat samband, och sen försöker man utesluta spuriositet genom att introducera kontrollvariabler.

Ett annat, kanske mindre vanligt, fenomen är att ett samband är undertryckt. Det betyder att man först inte upptäcker något samband i den bivariata analysen, men under kontroll för andra variabler gör det. När det gällde spuriösa samband berodde spuriositeten på att det fanns en tredje variabel som var positivt korrelerad med både beroende och oberoende variabel, men när det gäller undertryckta samband beror det på att det finns en tredje variabel som är positivt korrelerad med den ena variabeln, och negativt korrelerad med den andra variabeln.

Som exempel kan man ta sambandet mellan demokrati och regeringens skuldsättning. Man kan till exempel tänka sig att politiker, för att vinna röster, utlovar stora offentliga utgifter, fastän det inte är ekonomiskt hållbart. Man skulle då kunna tänka sig att demokratier har högre nivåer av skuldsättning än ickedemokratiska länder, som illustrerat i Bild 3:

Demokrati mäts på samma sätt som i det förra exemplet (fh_ipolity2), och statens skuldsättning mäts genom variabeln wdi_cgd, som också är en av World Development Indicators, och mäter statens skuldsättning som andel av BNP. I Tabell 4 redovisas resultaten från den bivariata regressionsanalysen.

Risk för undertryckt samband

I den bivariata analysen verkar det som om det inte finns något samband mellan demokrati och skuldsättning att tala om – effekten är inte signifikant, och om det skulle finnas något samband så är det negativt, tvärtemot vad man kunde förvänta sig. Men det finns anledning att misstänka att modellen inte är helt komplett.

Ekonomisk utveckling hänger som bekant ihop med demokrati. Men det finns också anledning att misstänka att ekonomisk utveckling hänger ihop med mindre statsskulder. De förväntade sambanden mellan variablerna visas i Bild 4:

Om ekonomisk utveckling är positivt korrelerat med demokrati och negativt korrelerat med statens skuldsättning kommer det att innebära att sambandet mellan demokrati och skuldsättning är undertryckt. Anledningen är att demokratier (som vi förväntar oss ska vara mer skuldsatta) är mer ekonomiskt utvecklade (vilket förväntas leda till mindre skuldsättning). Vi har alltså att göra med två motsatta effekter, och behöver kontrollera för ekonomisk utveckling för att separera effekterna.

Först tar vi fram en korrelationsmatris över de tre variablerna:

Demokrati har inget signifikant bivariat samband med skuldsättning, men ekonomisk utveckling har en negativ korrelation med skuldsättning och en positiv korrelation med demokrati, som det fanns anledning att misstänka. Det är därför viktigt att kontrollera för ekonomisk utveckling för att komma närmare den sanna effekten av demokrati.

Resultat av analys med kontrollvariabel

Effekten av demokrati förändras kraftigt mellan Modell 1 och Modell 2. Från att vara negativ och insignifikant går den till att bli positiv och signifikant på 90-procentsnivån (överlag bör man använda 95-procentsnivån, men det händer att man använder 90-procentsnivån också, så jag tog mig friheten i det här exemplet).

När vi jämför länder med samma nivå av ekonomisk utveckling märker vi nu att demokratier tenderar att ha något högre skuldsättningsgrad än ickedemokratier med samma nivå av ekonomisk utveckling. Sambandet var alltså i Modell 1 undertryckt.

En lathund för vilka effekter man ska förvänta sig av kontrollvariabler

Vi har nu sett två exempel på vad som kan hända om man utelämnar viktiga kontrollvariabler. På engelska kallas detta omitted variable bias – skevhet på grund av utelämnade variabler.

Generellt är det så att om man utelämnar en variabel som är positivt korrelerad med både oberoende och beroende variabel så kommer huvudsambandet att framstå som mer positivt än vad det egentligen är. I exemplet med sambandet som verkade mer positivt än vad det egentligen var så var det positivt till att börja med, och sjönk till noll när vi tog med kontrollvariabeln. Men det skulle också kunna vara så att det först verkar som ett nollsamband, men sjunker till minus och blir ett negativt samband när man tar med en kontrollvariabel.

I exemplet med sambandet som verkade vara mer negativt än vad det egentligen var var det först noll (insignifikan), och steg sedan till positivt, om än svagt, när vi kontrollerade för en variabel som. Men det kan också vara så att man börjar med ett signifikant negativt samband, som man sedan kontrollerar, och då stiger det upp till noll och blir insignifikant.

I tabellen nedan sammanfattas vad som händer när man introducerar en variabel som är positivt eller negativt korrelerad med oberoende och beroende variabel. Det första exemplet i inlägget passar alltså in i ruta (a): sambandet gick från att vara positivt till noll. Det andra exemplet hittar vi i ruta (b): sambandet gick från att vara svagt negativt till positivt.

Det här är bra att ha med sig när man väljer kontrollvariabler. Om man inte förväntar sig att kontrollvariablerna är korrelerade med både beroende och oberoende variabel är det meningslöst att inkludera dem – de kommer inte att påverka huvudsambandet.

10 reaktioner till “Guide: Kontrollvariabler i regressionsanalys

  1. Jag har matat in all data men i diagrammen sen blir det totala bara ibland 100%, ibland blir det 100,01 och 99,99? Jag förstår inte varför! De andra har jag gjort på samma sätt som de som blir 100%. Jag tittade på om det var för att en variabel inte kom med som svaralternativ (ex att ingen tog vet ej fast den fanns som alternativ) men det blev inte rätt då heller…. Hjälp!

  2. Hej,
    Jag har 3 frågor om SPSS.
    1. Hur undersöker jag om ett högt karotenintag kan skydda mot diabetes och håravfall? Hur kan jag jämföra resultaten?

    2. Hur testar jag om det finns ett signifikant samband (p-value) mellan alkoholintag och hjärtfel, detta ska jag göra i en korstabell/ chi2-analys (X2).

    3. Hur gör jag en riskanalys (OR med 95% CI) med samma hypotes som i fråga 1?

    1. 1. Beror på variablernas skalnivå
      2. Du säger ju själv att du ska göra ett chi-två test
      3. Logistisk regression

  3. Hej, Tack för jätte bra blogg till att börja med,
    Min fråga rör min ekonometriska uppsats och tolkning av data,

    I min korrelationsmatris blir vissa oebeoende variabler insignifikanta men har ”rätt” lutningskofficient,

    I regressionskörningar blir dock dessa oberoende variabler signifikanta med ”rätt” betavärde,

    Hur skall jag dra slutsatser om dessa två motstridiga resultat och hur analyserar man de två olika resultaten ?

    Tack!

  4. Hej!
    Tack för en mycket bra blogg, den har hjälpt mig i många situationer.

    Angående denna guide; Hur mycket måste en confounder påverka sambandet som man studerar för att den skall bedömas var nödvändig att ha men i multivariate analysen?

  5. Hej,
    Jag har gjort en multivariat lineär analys och nu blivit ombedd att redovisa power för regressionen (”the power for the regression based on the number of variables kept in the final model, i.e. increments to R-squared and the power for each increments”) – och jag begriper inte hur jag ska göra. Eller ens VAD jag ska göra.
    Jag kan ju i ”Analyze”-> ”Regression” -> ”Linear” gå in i ”Statistics” och kryssa i ”R squared change”, men det ger mig ju bara R squared för modellen, inte ”increments to R-squared” för varje inkluderad kovariat…
    Tacksam för hjälp.

  6. Hej,

    Jag undrar vad blir problemet när man använder tidserier. Jag undersöker arbetslösheten och alla värden är i andelar eller antal av en helt befolkning. Vad bör man anta för metod då? Blir OLS dåligt? Vilka problem stöter man på då man inte har individdata?

  7. Hej,

    Jag har gjort en korrelationsmatris för att undersöka om det kan finnas multikollinearitet bland några variabler. Längst ner har jag en fotnot som flaggar för om sambanden är signifikanta på en 0,01-nivå och en 0,05-nivå.

    Jag skulle även vilja lägga till fotnoter för 0,025- och 0,10-signifikans på matrisen som kommer fram. Hur gör jag detta?

    // Anton, student

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com-logga

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s