Guide: Regressionsdiagnostik – heteroskedasticitet, del 1

I detta inlägg ska vi gå igenom problem med heteroskedasticitet (och inte bara hur svårt det är att stava och uttala). Heteroskedasticitet är ett av de vanligare problemen som kan uppstå i, och försvåra tolkningen av, en regressionsanalys. Heteroskedasticitet innebär i korthet att variansen hos feltermerna inte är konstant; det vill säga att, när värdet på oberoende variabel (x) ökar, så minskar eller /ökar den oförklarade variationen i beroende variabel (y). Är spridningen jämn råder motsatsen homoskedasticitet.

Fortsätt läsa ”Guide: Regressionsdiagnostik – heteroskedasticitet, del 1”

Guide: Flernivåregressionsanalys, del 2

I den här guiden ska vi gå igenom:

  • Hur man lägger in fixerade effekter på nivå 1 och nivå 2
  • Hur man låter effekten av nivå 1-variabler variera mellan nivå 2-enheterna
  • Visualisering av varierande effekter
  • Hur man kan förklara variation i effekt

I den första delen av den här guiden undersökte vi data om priser på bostadsrätter i Göteborg. Vi fann då att det fanns signifikant variation i pris mellan olika stasdelar (nivå 2-enheterna). Nu ska vi undersöka om nivå 1-variabler, alltså egenskaper för varje enskild lägenhet, kan påverka priset, om stadsdelsegenskaper kan påverka priset, och slutligen om nivå 1-egenskaperna varierar mellan stadsdelarna. Data för den som vill följa med kan laddas ned härifrån.

Fortsätt läsa ”Guide: Flernivåregressionsanalys, del 2”

Läsarfråga: Instrumentvariabler

Q: Jag undrar hur det här med instrument variabler fungerar?

A: Instrumentvariabler använder man när det finns risk för omvänd kausalitet. Ett klassiskt exempel är ekonomisk tillväxt och inbördeskrig. Man vill undersöka om ekonomisk tillväxt minskar risken för inbördeskrig, men det är också rimligt att tro att inbördeskrig minskar den ekonomiska tillväxten. Om vi då undersöker korrelationen mellan de två kommer vi inte veta vad som orsakar vad.

Genom att hitta en variabel som kan tänkas orsaka ekonomisk tillväxt men inte inbördeskrig kan vi komma runt problemet. I länder där ekonomin bygger på jordbruk borde rimligtvis mängden regn påverka den ekonomiska tillväxten. Samtidigt så borde inte regn påverka risken för inbördeskrig, och inbördeskrig påverkar definitivt inte hur mycket det regnar.

Om vi då hittar ett samband mellan hur mycket det regnar i ett land och risken för inbördeskrig så kan man då dra slutsatsen att det måste vara så att regnet har gjort att den ekonomiska tillväxten ökat, vilket minskat risken för inbördeskrig. Det kan ju inet ha gått åt andra hållet.

Det här exemplet kan man läsa om i en berömd artikel av Miguel, Satyanath & Sergenti (2004) i tidskriften Journal of Political Economy: Economic Shocks and Civil Conflict: An Instrumental Variables Approach.

Statistiskt gör man det här I två steg. Först undersöker man effekten av regn på ekonomisk tillväxt. Därefter använder man regnnivån för att predicera värden av ekonomisk tillväxt. Därefter använder man de predicerade värdena av ekonomisk tillväxt som oberoende variabel i en ny regression där inbördeskrig är den beroende variabeln. Detta kallas Two Stage Least Squares. I SPSS hittar du det under ”Analyze->Regression->2-Stage Least Squares”. Du skriver där in din beroende variabel, din oberoende variabel och din instrumentvariabel (motsvarande regn).

Guide: Tolka standardfel i regressionsanalys

I tidigare inlägg om regressionsanalys har jag beskrivit hur man ska tolka signifikansvärden för att se om regressionskoefficienten är signifikant skild från noll, det vill säga huruvida vi kan vara säkra på om det finns en effekt eller inte.

I det här inlägget tänkte jag beskriva hur man kan tolka regressionskoefficienternas standardfel för att avgöra om en koefficient är signifikant eller inte, och hur man också enkelt kan testa om koefficienten är signifikant skild från något annat tal än noll.

Fortsätt läsa ”Guide: Tolka standardfel i regressionsanalys”

Läsarfråga: Dummyvariabler och kontinuerliga variabler i samma regression

Q: I mitt jobb sa ska jag försöka göra en regressionsanalys och testa faktorer som kan inverka på resultaten av mikroföretag. Jag hade tänkt att göra så här: som y ha procentuell skillnad i intäkter och som x variabler ha både dummyvariabler men även kontinuerliga variabler. Min fråga är nu hur gör jag för att kunna blanda dummyvariabler och kontinuerliga variabler i samma regression?

I bloggen skriver du: “När man inte har några andra oberoende variabler än dummyvariabler för en kategori med i modellen kan vi tolka interceptet som medelvärdet för referensgruppen. Men detta gäller alltså bara så länge vi inte har med några andra oberoende variabler.”

Fortsätt läsa ”Läsarfråga: Dummyvariabler och kontinuerliga variabler i samma regression”

Läsarfråga: Insignifikant intercept i regressionsanalys

Q: Ibland när man testar olika variabler som beroende variabler, så får man ett värde på interceptet som inte är signifikant. Hur ska man tolka det egentligen? De oberoende variabler man testar kan ändå ha en signifikant påverkan på den beroende. Är modellen ändå användbar?

A: Man ska bara tolka det som att interceptet (som också kan kallas konstanten, eller alfa-värdet) inte är signifikant skilt från 0. Interceptet visar vad det förväntade värdet är när de oberoende variablerna har värdet 0. Så när alla dina oberoende variabler har värdet 0 så kan man förvänta sig att individerna i din undersökning har 0 på den beroende variabeln.

Så modellen är helt användbar! Det är ju inte så ofta man använder sig av interceptet ändå. Det påverkar inte tolkningen av de andra variablerna.

Läsarfråga: Redovisa insignifikanta variabler i regressionsanalys

Q: Jag har gjort en multivariat regression på min beroende variabel ”Tillit”, och de oberoende variabler jag har är ”Arbetstillfredsställelse”, ”Kunskapsutbyte” och ”Engagemang”. Den oberoende variabeln ”Engagemang” har ingen signifikant påverkan på den beroende variabeln, och behöver därför inte diskuteras egentligen. Ska man ändå presentera den i sin regressionstabell, för att visa att man har testat den men att den inte var signifikant, eller är detta bara onödigt?

A: När det är en multivariat regression så tycker jag definitivt att alla ingående oberoende variabler ska redovisas. Även om den inte har någon egen signifikant effekt så kan den ju påverka de andra oberoende variablernas effekter. De är ju under kontroll för engagemang, och det framgår ju inte om man tar bort den. Så jag tycker att den ska med! Tolkningen av resultaten gör man ju i texten.