Spelar skalnivåerna i SPSS någon roll?

En viktig sak att tänka på när man gör statistiska analyser är vilken skalnivå variablerna man använder sig av befinner sig på.

Frukt

Nominalskalor är kategoriseringar. Variabeln ”Frukt” är till exempel en nominalskala – det finns bananer, päron, äpplen och så vidare. De är olika, men ingen är mer ”frukt” än någon annan. De går inte att rangordna.

Ordinalskalor är kategoriseringar som dessutom har en inbyggd rangordning. En skala som har alternativen ”Mycket bra” ”Ganska bra” ”Varken bra eller dåligt” och så vidare är till exempel en ordinalskala. ”Mycket bra” är bättre än ”Ganska bra”, men det går inte att avgöra om avståndet mellan ”Mycket bra” och ”Ganska bra” är lika stort som avståndet mellan ”Ganska bra” och ”Varken bra eller dåligt”. Det kallas att skalan inte har ”ekvidistans”.

Intervallskalor är kategoriseringar, har rangordning, och ekvidistans. Centimeter är en sådan skala. 5 cm är mer än 4 cm, och avståndet mellan 5 och 4 cm är lika stort som avståndet mellan 4 och 3 cm.

Vilka analystekniker man kan använda sig av beror på vilken skalnivå variabeln befinner sig på. Man kan till exempel egentligen bara räkna medelvärden på intervallskalor. Det är ju befängt att försöka räkna fram ett medelvärde på två bananer, ett päron och en apelsin. Väldigt många analystekniker bygger på att man räknar medelvärden (till exempel t-test, ANOVA, regressionsanalyser), vilket gör att den beroende variabeln måste vara på intervallskalenivå. Det är dock inte helt ovanligt att man av bekvämlighetsskäl gör sådana analyser på ordinalskalor ibland också, men det är alltså inte statistiskt korrekt.

I SPSS kan man ställa in vilken skalnivå variablerna befinner sig på. Alternativet ”Scale” motsvarar intervallskala. De inställningarna påverkar däremot inte analyserna. SPSS protesterar inte om du använder en nominalskala som beroende variabel i en regressionsanalys. Det måste man hålla koll på själv.

Det enda fallet där det spelar roll, vad jag vet, är när man gör grafer. Då är det viktigt att inställningarna är de rätta.

Guide: Regressionsdiagnostik – heteroskedasticitet, del 1

I detta inlägg ska vi gå igenom problem med heteroskedasticitet (och inte bara hur svårt det är att stava och uttala). Heteroskedasticitet är ett av de vanligare problemen som kan uppstå i, och försvåra tolkningen av, en regressionsanalys. Heteroskedasticitet innebär i korthet att variansen hos feltermerna inte är konstant; det vill säga att, när värdet på oberoende variabel (x) ökar, så minskar eller /ökar den oförklarade variationen i beroende variabel (y). Är spridningen jämn råder motsatsen homoskedasticitet.

Läs mer

Guide: Statistisk ”power” och urvalsstorlek i experimentell design

I den här guiden ska vi gå igenom:

  • Vad statistisk ”power” är
  • Hur man räknar ut urvalsstorlek för att få rätt power
  • Ett empiriskt test av teorin
  • En kortversion för dig som inte orkar läsa hela inlägget

Experimentell metod lade grunden för den vetenskapliga revolutionen som ledde fram till fantastiska framsteg inom framförallt naturvetenskap och medicin från 1600-talet och framåt. På senare tid har experimentell metod även vunnit insteg inom samhällsvetenskapen.

Grundprincipen för experimentell metod är att jämföra en kontrollgrupp med en experimentgrupp, som man utsätter för någon behandling. Om experimentgruppen skiljer sig tillräckligt mycket åt från kontrollgruppen förkastar vi den så kallade nollhypotesen – att behandlingen inte haft någon effekt. Vanliga metoder för att pröva skillnaden mellan två eller flera grupper är t-test eller variansanalys. Med hjälp av dessa metoder kan vi avgöra om det är troligt att en skillnad mellan grupperna beror på slumpmässig variation, eller om den kan tillskrivas behandlingen.

Läs mer

Guide: Signifikans och one sample t-test

I den här guiden ska vi gå igenom:

  • Kort om statistisk signifikanstestning
  • Skillnaden mellan independent samples t-test och one sample t-test
  • Hur man genomför ett one sample t-test

Är en majoritet i USA för legalisering av marijuana?

Jag har tidigare skrivit om att jämföra medelvärden med t-test. T-testet är väldigt användbart, då man kan jämföra om två medelvärden skiljer sig signifikant ifrån varandra. Om vi har gjort slumpmässiga urval ur två grupper (till exempel kvinnor och män), och medelvärdena i de två grupperna är signifikant skilda på 95%-nivån, betyder det att vi med 95% säkerhet kan säga att medelvärdena i populationen ur vilken vi gjort urvalet (alltså alla kvinnor och män i Sverige) inte är samma. Vi kan inte vara 95% säkra att skillnaden i den stora populationen är just den vi har uppmätt – bara att det finns en skillnad.

Läs mer

Guide: Flernivåregressionsanalys, del 2

I den här guiden ska vi gå igenom:

  • Hur man lägger in fixerade effekter på nivå 1 och nivå 2
  • Hur man låter effekten av nivå 1-variabler variera mellan nivå 2-enheterna
  • Visualisering av varierande effekter
  • Hur man kan förklara variation i effekt

I den första delen av den här guiden undersökte vi data om priser på bostadsrätter i Göteborg. Vi fann då att det fanns signifikant variation i pris mellan olika stasdelar (nivå 2-enheterna). Nu ska vi undersöka om nivå 1-variabler, alltså egenskaper för varje enskild lägenhet, kan påverka priset, om stadsdelsegenskaper kan påverka priset, och slutligen om nivå 1-egenskaperna varierar mellan stadsdelarna. Data för den som vill följa med kan laddas ned härifrån.

Läs mer

Nya skribenter på SPSS-akuten + vad vill du läsa mer om?

Sedan starten av SPSS-akuten 2010 har Anders Sundell ensam stått för innehållet här på bloggen. Under de snart tre år som gott har antalet besökare ökat markant och uppgår nu till hundratals varje dag. För att kunna uppdatera lite oftare förstärker vi nu med tre ytterligare skribenter, alla doktorander på Statsvetenskapliga institutionen på Göteborgs Universitet: Rasmus Broms, Elina Lindgren och Sebastian Lundmark. Framöver kommer vi alla fyra bidra med innehåll till bloggen.

Tonvikten kommer som förut vara på att skriva enkla guider till hur man genomför analyser i SPSS, och om annat som är nyttigt när man ska göra en statistisk undersökning eller tolka statistik.

Men vi tar gärna emot tips! Om det är någon särskild metod som du vill att vi ska skriva om, eller något allmänt du vill se mer av, eller om du har tips om hur bloggen borde utveckla sig i framtiden, skriv en kommentar!

Rasmus Broms

Elina Lindgren

Sebastian Lundmark

Anders Sundell

Guide: Flernivåregressionsanalys del 1

I den här guiden ska vi gå igenom:

  • Varför man ibland bör använda flernivåregressionsanalys istället för OLS
  • Hur man räknar ut intraklasskorrelationskoefficienten

Den absolut vanligaste tekniken för regressionsanalys är den så kallade OLS-tekniken. Med den kan man undersöka samband mellan en beroende variabeln och en eller flera oberoende variabler. I den här guiden tänkte jag försöka gå igenom en annan teknik, flernivåregressionsanalysen (multi-level regression analysis på engelska).

Läs mer