Läsarfråga: Överlappande konfidensintervall

Q: Jag har data på temperaturen i två grupper som jag vill se om de är signifikant skilda från varandra. Jag har beräknat ett konfidensintervall (95%) och det överlappar. När jag gör ett t-test ger det dock att p<0,05 dvs att medelvärdena är signifikant skilda från varandra. Bör det inte ge samma sak, dvs att de ej överlappar och t-test ger p<0,05?

A: Mätningar av två saker kan ha överlappande konfidensintervall och ändå vara signifikant skilda. Tänk dig att det bara är ändarna som överlappar, som på bilden. Vi kan inte med 95% säkerhet säga att det röda värdet inte är är noll, och vi kan inte heller vara 95% säkra på att det gröna värdet inte är noll.

Däremot är det ganska sannolikt att det röda värdet faktiskt är större än det gröna. Anledningen är att det finns en viss osäkerhet i skattningen av båda värdena. För att det röda värdet inte ska vara större än det gröna så måste det alltså vara i den absoluta botten på konfidensintervallet, medan det gröna värdet samtidigt ska vara i den absoluta toppen på sitt konfidensintervall.

Det kanske kan hjälpa att tänka sig att man singlar två mynt. Sannolikheten för att det ska bli krona är 50% för båda mynten, men bara 25% för att båda ska bli det samtidigt.

Alltså: det är inte konstigt. Det är själva testet av skillnaden man framförallt ska lita på, inte konfidensintervallen, eftersom det inte är perfekt precision i TVÅ mätningar. Om du istället vill se om ett värde är signifikant skilt från noll så kommer det passa perfekt med konfidensintervallet – om konfidensintervallet överlappar noll är inte värdet signifikant skilt från noll, eftersom vi så att säga mäter värdet noll med perfekt precision.

Läsarfråga: Jämföra medelvärden på två variabler

Q: Jag skulle vilja jämföra om två variabler (scale-nivå) är signifikant olika från varandra, det handlar om en grupp, ett tillfälle, två variabler. Jag undrar dels hur man gör detta med normalfördelade variabler och dels med icke normalfördelade variabler.

A: För normalfördelade variabler ska du då använda dig av ett så kallat ”Paired samples t-test”. Du hittar det under ”Analyze->Compare means->Paired samples t-test”. Du klickar där bara i de två variabler du vill jämföra. SPSS tar sedan fram medelvärdet på dessa båda variabler och undersöker om skillnaden i medelvärde är signifikant skilt från 0, det vill säga om vi kan säga att det finns en signifikant skillnad mellan grupperna.

Det intressanta att titta på är alltså medelvärdena i den första tabellen du får ut ”Paired samples statistics”, kolumnen ”Mean”. För att se om de är signifikant åtskilda kollar du i tabellen ”Paired samples test”, kolumnen ”Sig. (2-tailed)”. Om signifikansvärdet understiger .05 så är medelvärdena olika på 95 procents säkerhetsnivå.

Variablerna måste dock vara normalfördelade, och bör ju rimligtvis också vara mätta på samma skala. Om du jämför en variabel som kan ha värdena 0-5 och en annan som kan ha värdena 0-50 så är det inte så konstigt om medelvärdena är olika.

Om data inte är normalfördelade behöver du använda dig av något icke-parametriskt test. Icke-parametrisk statistik, måste jag erkänna, är inte min starka sida. Men vad jag förstår så skulle ”Wilcoxon Signed-Rank test” vara lämpligt. Du hittar det, och andra alternativ, under ”Analyze->Nonparametric tests->Related samples”.

Läsarfråga: Instrumentvariabler

Q: Jag undrar hur det här med instrument variabler fungerar?

A: Instrumentvariabler använder man när det finns risk för omvänd kausalitet. Ett klassiskt exempel är ekonomisk tillväxt och inbördeskrig. Man vill undersöka om ekonomisk tillväxt minskar risken för inbördeskrig, men det är också rimligt att tro att inbördeskrig minskar den ekonomiska tillväxten. Om vi då undersöker korrelationen mellan de två kommer vi inte veta vad som orsakar vad.

Genom att hitta en variabel som kan tänkas orsaka ekonomisk tillväxt men inte inbördeskrig kan vi komma runt problemet. I länder där ekonomin bygger på jordbruk borde rimligtvis mängden regn påverka den ekonomiska tillväxten. Samtidigt så borde inte regn påverka risken för inbördeskrig, och inbördeskrig påverkar definitivt inte hur mycket det regnar.

Om vi då hittar ett samband mellan hur mycket det regnar i ett land och risken för inbördeskrig så kan man då dra slutsatsen att det måste vara så att regnet har gjort att den ekonomiska tillväxten ökat, vilket minskat risken för inbördeskrig. Det kan ju inet ha gått åt andra hållet.

Det här exemplet kan man läsa om i en berömd artikel av Miguel, Satyanath & Sergenti (2004) i tidskriften Journal of Political Economy: Economic Shocks and Civil Conflict: An Instrumental Variables Approach.

Statistiskt gör man det här I två steg. Först undersöker man effekten av regn på ekonomisk tillväxt. Därefter använder man regnnivån för att predicera värden av ekonomisk tillväxt. Därefter använder man de predicerade värdena av ekonomisk tillväxt som oberoende variabel i en ny regression där inbördeskrig är den beroende variabeln. Detta kallas Two Stage Least Squares. I SPSS hittar du det under ”Analyze->Regression->2-Stage Least Squares”. Du skriver där in din beroende variabel, din oberoende variabel och din instrumentvariabel (motsvarande regn).

Läsarfråga: Analysera grupper separat

Q: Vi har en ”grupp” variabel som består av 1= läpp och 2= läpp-käk-gomspalt. Har satt etikett på den enskilda variabeln genom att fylla i fönstret Values.

Sen när vi gör frekvensanalyser så baseras ju alla analyser på både 1 och 2 men vi vill ju kunna analyser dem var för sig, hur gör vi?

A: Det enklaste sättet är att använda sig av ”data–>split file”. Där klickar ni in ”organize output by groups”, och anger bara att ni vill använda er gruppvariabel när ni delar filen. Alla analyser ni gör efter det kommer att delas upp på de olika värdena i gruppvariabeln. Om ni sedan vill göra analyser på hela urvalet sen så går ni bara in på ”data–>split file” och trycker i ”analyze all cases, do not create groups”.

Läsarfråga: Regressionsekvation

Q: Vi har genomfört två stycken multiple regressioner med 1 beroende, samt 8 respektive 2 oberoende variabler. Då vi i början av vår metod tänkte uttrycka detta i en funktion så undrar vi om det finns någon standardfunktion för en multipel regressionsanalys?

A: Japp, det finns det. I en regression med två oberoende variabler ser den ut såhär:

Yi = B0 + B1X1i + B2X2i + ei

Det betyder alltså att variabeln Y för personen i är lika med ett startvärde (interceptet), B0, plus koefficienten för variabel X1 (B1) gånger X1, plus koefficienten för X2 (B2) gånger X2, plus en felterm för varje person. När ni skriver er funktion så byter ni lämpligen ut Y, X1 och X2 mot namnen på era variabler.

Det regressionsanalysen syftar till är ju att uppskatta värdet på B0, B1 och B2, och särskilt på B1 och B2. Om B1 till exempel är signifikant skild från noll så betyder det ju att det finns ett samband mellan Y och X1.

Läsarfråga: Visa exakt antal i histogram

Q: Vi sitter och skriver en magisteruppsats och skulle behöva lite hjälp med våra histogram.
Vi skulle vilja att det står exakt antal i de olika staplarna. Går det att ordna på något sätt?

A: När ni gjort ert histogram, dubbelklicka på histogrammet för att öppna ”chart editor”. I chart editor högerklickar ni på någon av staplarna och trycker på ”show data labels”. Voila!

Histogram med ”data labels”.