Regressionsanalys: Interaktionseffekter med kontinuerliga variabler

I det här inlägget ska vi:

  1. Gå igenom när man kan använda interaktionseffekter med kontinuerliga variabler
  2. Hur man gör en sådan analys
  3. Hur man räknar ut effekten vid olika värden av den modererande variabeln
  4. Hur man räknar ut konfidensintervallen

Ett bra verktyg när man vill pröva olika hypoteser är att göra en regressionsanalys med interaktionseffekter, som jag skrivit om i ett tidigare inlägg. Man utgår i modellen från att effekten av en oberoende variabel beror på värdet av en annan oberoende variabel, vilket ofta är rimligt att anta.

I den tidigare guiden skrev jag om hur det här går till när den modererande variabeln (alltså den som avgör vilken effekt den andra variabeln har) är en dummyvariabel, det vill säga har bara två värden. I det här inlägget tänkte jag istället skriva om hur man göra när man har två kontinuerliga variabler, alltså skalor.

Läs mer

Guide: Flernivåregressionsanalys, del 2

I den här guiden ska vi gå igenom:

  • Hur man lägger in fixerade effekter på nivå 1 och nivå 2
  • Hur man låter effekten av nivå 1-variabler variera mellan nivå 2-enheterna
  • Visualisering av varierande effekter
  • Hur man kan förklara variation i effekt

I den första delen av den här guiden undersökte vi data om priser på bostadsrätter i Göteborg. Vi fann då att det fanns signifikant variation i pris mellan olika stasdelar (nivå 2-enheterna). Nu ska vi undersöka om nivå 1-variabler, alltså egenskaper för varje enskild lägenhet, kan påverka priset, om stadsdelsegenskaper kan påverka priset, och slutligen om nivå 1-egenskaperna varierar mellan stadsdelarna. Data för den som vill följa med kan laddas ned härifrån.

Läs mer

Guide: Flernivåregressionsanalys del 1

I den här guiden ska vi gå igenom:

  • Varför man ibland bör använda flernivåregressionsanalys istället för OLS
  • Hur man räknar ut intraklasskorrelationskoefficienten

Den absolut vanligaste tekniken för regressionsanalys är den så kallade OLS-tekniken. Med den kan man undersöka samband mellan en beroende variabeln och en eller flera oberoende variabler. I den här guiden tänkte jag försöka gå igenom en annan teknik, flernivåregressionsanalysen (multi-level regression analysis på engelska).

Läs mer

Guide: Kontrollvariabler i regressionsanalys

I den här guiden ska vi gå igenom:

  • Hur samband kan verka vara mer positiva än vad de egentligen är
  • Hur samband kan verka vara mer negativa än vad de egentligen är
  • En lathund för vilka effekter man ska förvänta sig av utelämnade variabler

I bivariat regressionsanalys kan man undersöka om det finns ett linjärt samband mellan två variabler. Men ofta talar man om att man behöver föra in kontrollvariabler i regressionsanalysen. Anledningen är att om man missar att ta med de relevanta kontrollvariablerna riskerar att dra felaktiga slutsatser om huvudsambandet. I den här guiden ska vi gå igenom de två sätt på vilket man kan dra felaktiga slutsatser, och vad som man kan förvänta sig händer med huvudsambandet när man introducerar olika kontrollvariabler.

Läs mer

Guide: Logistisk regression

I det här inlägget ska vi:

  • Gå igenom när man bör använda logistisk regression istället för linjär regression
  • Gå igenom hur man genomför en logistisk regression i SPSS
  • Tolka resultaten med hjälp av en graf över förväntad sannolikhet
  • Förstå vad B-koefficienten betyder
  • Förstå vad Exp(B), ”odds-ratiot”, betyder
  • Jämföra resultaten med OLS (linjär regression)

Läs mer

Inkludera inte för många oberoende variabler

Det är lätt hänt att man i arbetet med en regressionsmodell så att säga ”slänger in” alla oberoende variabler man kan hitta. Oftast tillför de någon förklaringskraft, och man kan då förledas att tro att modellen blir mer tillförlitlig. Men det ökar risken för att man i för stor utsträckning passar sin modell till just det urval man har, och inte till det generella samband man vill undersöka. Här är ett utmärkt blogginlägg från bloggen Fivethirtyeight på New York Times, där Nate Silver diskuterar just det problemet.

The problem with an overfit model is that, because it is so fussy about handling past cases, it tends to do a poor job of predicting future ones. Imagine that I was a petty criminal of some kind, and that I deputized you to come up with a way to help me pick combination locks. I also gave you three locks to experiment upon.

What I’d really be looking for would be some set of principles on how one picks locks: perhaps a certain type of paper clip works especially well, or a disproportionate number of combinations contain numbers like ‘7’ and ‘13’. Instead, after studying the issue for a few days, you report back to me that you’ve found the perfect solution. If the lock is blue, use the combination 45-12-26. If it’s red, use 33-9-16. And if it’s black, use 22-10-41. That would certainly be a very reliable way to pick these three particular locks, but it wouldn’t tell me anything about how to pick locks in general. This is essentially the same thing that happens when one produces an overfit statistical model.