Läsarfråga: Jämföra medelvärden på två variabler

Q: Jag skulle vilja jämföra om två variabler (scale-nivå) är signifikant olika från varandra, det handlar om en grupp, ett tillfälle, två variabler. Jag undrar dels hur man gör detta med normalfördelade variabler och dels med icke normalfördelade variabler.

A: För normalfördelade variabler ska du då använda dig av ett så kallat ”Paired samples t-test”. Du hittar det under ”Analyze->Compare means->Paired samples t-test”. Du klickar där bara i de två variabler du vill jämföra. SPSS tar sedan fram medelvärdet på dessa båda variabler och undersöker om skillnaden i medelvärde är signifikant skilt från 0, det vill säga om vi kan säga att det finns en signifikant skillnad mellan grupperna.

Det intressanta att titta på är alltså medelvärdena i den första tabellen du får ut ”Paired samples statistics”, kolumnen ”Mean”. För att se om de är signifikant åtskilda kollar du i tabellen ”Paired samples test”, kolumnen ”Sig. (2-tailed)”. Om signifikansvärdet understiger .05 så är medelvärdena olika på 95 procents säkerhetsnivå.

Variablerna måste dock vara normalfördelade, och bör ju rimligtvis också vara mätta på samma skala. Om du jämför en variabel som kan ha värdena 0-5 och en annan som kan ha värdena 0-50 så är det inte så konstigt om medelvärdena är olika.

Om data inte är normalfördelade behöver du använda dig av något icke-parametriskt test. Icke-parametrisk statistik, måste jag erkänna, är inte min starka sida. Men vad jag förstår så skulle ”Wilcoxon Signed-Rank test” vara lämpligt. Du hittar det, och andra alternativ, under ”Analyze->Nonparametric tests->Related samples”.

Guide: Logistisk regression

I det här inlägget ska vi:

  • Gå igenom när man bör använda logistisk regression istället för linjär regression
  • Gå igenom hur man genomför en logistisk regression i SPSS
  • Tolka resultaten med hjälp av en graf över förväntad sannolikhet
  • Förstå vad B-koefficienten betyder
  • Förstå vad Exp(B), ”odds-ratiot”, betyder
  • Jämföra resultaten med OLS (linjär regression)

Fortsätt läsa ”Guide: Logistisk regression”

Läsarfråga: Instrumentvariabler

Q: Jag undrar hur det här med instrument variabler fungerar?

A: Instrumentvariabler använder man när det finns risk för omvänd kausalitet. Ett klassiskt exempel är ekonomisk tillväxt och inbördeskrig. Man vill undersöka om ekonomisk tillväxt minskar risken för inbördeskrig, men det är också rimligt att tro att inbördeskrig minskar den ekonomiska tillväxten. Om vi då undersöker korrelationen mellan de två kommer vi inte veta vad som orsakar vad.

Genom att hitta en variabel som kan tänkas orsaka ekonomisk tillväxt men inte inbördeskrig kan vi komma runt problemet. I länder där ekonomin bygger på jordbruk borde rimligtvis mängden regn påverka den ekonomiska tillväxten. Samtidigt så borde inte regn påverka risken för inbördeskrig, och inbördeskrig påverkar definitivt inte hur mycket det regnar.

Om vi då hittar ett samband mellan hur mycket det regnar i ett land och risken för inbördeskrig så kan man då dra slutsatsen att det måste vara så att regnet har gjort att den ekonomiska tillväxten ökat, vilket minskat risken för inbördeskrig. Det kan ju inet ha gått åt andra hållet.

Det här exemplet kan man läsa om i en berömd artikel av Miguel, Satyanath & Sergenti (2004) i tidskriften Journal of Political Economy: Economic Shocks and Civil Conflict: An Instrumental Variables Approach.

Statistiskt gör man det här I två steg. Först undersöker man effekten av regn på ekonomisk tillväxt. Därefter använder man regnnivån för att predicera värden av ekonomisk tillväxt. Därefter använder man de predicerade värdena av ekonomisk tillväxt som oberoende variabel i en ny regression där inbördeskrig är den beroende variabeln. Detta kallas Two Stage Least Squares. I SPSS hittar du det under ”Analyze->Regression->2-Stage Least Squares”. Du skriver där in din beroende variabel, din oberoende variabel och din instrumentvariabel (motsvarande regn).

Läsarfråga: Analysera grupper separat

Q: Vi har en ”grupp” variabel som består av 1= läpp och 2= läpp-käk-gomspalt. Har satt etikett på den enskilda variabeln genom att fylla i fönstret Values.

Sen när vi gör frekvensanalyser så baseras ju alla analyser på både 1 och 2 men vi vill ju kunna analyser dem var för sig, hur gör vi?

A: Det enklaste sättet är att använda sig av ”data–>split file”. Där klickar ni in ”organize output by groups”, och anger bara att ni vill använda er gruppvariabel när ni delar filen. Alla analyser ni gör efter det kommer att delas upp på de olika värdena i gruppvariabeln. Om ni sedan vill göra analyser på hela urvalet sen så går ni bara in på ”data–>split file” och trycker i ”analyze all cases, do not create groups”.

Inkludera inte för många oberoende variabler

Det är lätt hänt att man i arbetet med en regressionsmodell så att säga ”slänger in” alla oberoende variabler man kan hitta. Oftast tillför de någon förklaringskraft, och man kan då förledas att tro att modellen blir mer tillförlitlig. Men det ökar risken för att man i för stor utsträckning passar sin modell till just det urval man har, och inte till det generella samband man vill undersöka. Här är ett utmärkt blogginlägg från bloggen Fivethirtyeight på New York Times, där Nate Silver diskuterar just det problemet.

The problem with an overfit model is that, because it is so fussy about handling past cases, it tends to do a poor job of predicting future ones. Imagine that I was a petty criminal of some kind, and that I deputized you to come up with a way to help me pick combination locks. I also gave you three locks to experiment upon.

What I’d really be looking for would be some set of principles on how one picks locks: perhaps a certain type of paper clip works especially well, or a disproportionate number of combinations contain numbers like ‘7’ and ‘13’. Instead, after studying the issue for a few days, you report back to me that you’ve found the perfect solution. If the lock is blue, use the combination 45-12-26. If it’s red, use 33-9-16. And if it’s black, use 22-10-41. That would certainly be a very reliable way to pick these three particular locks, but it wouldn’t tell me anything about how to pick locks in general. This is essentially the same thing that happens when one produces an overfit statistical model.

Guide: Stiganalys

I det här inlägget ska vi:

  • Genomföra en stiganalys
  • Göra ett filter för att bara få med de analysenheter som har giltiga värden på alla variabler

I vanlig regressionsanalys undersöker man de direkta effekterna av en eller flera oberoende variabler på en beroende variabel. Men i många teorier så antar man att en effekt kan medieras genom en annan variabel – effekten går så att säga genom en annan variabel.

Fortsätt läsa ”Guide: Stiganalys”