Q: Jag har några frågor gällande ordinaldata och multivariat analys:
1. Om jag gör en linjär multipel regression och har en oberoende variabel som är ordinal, ska jag då göra en dummy variabel av denna eller inte?
2. Om jag gör logistisk regression och en av de oberoende variablerna är ordinal, gör jag då dummys eller behandlar jag variabeln som kategorisk och väljer en referensgrupp?
A: 1. Ja, det är väl en bra idé. Det beror lite på hur många steg det är på ordinalskalan – surveyfrågor med fem värden och en tydlig mittpunkt (Mycket bra, ganska bra, varken bra eller dåligt, ganska dåligt, mycket dåligt till exempel) används ibland som intervallskalor i regressioner, men det är ju inte helt korrekt. Om det är färre värden än 5 tycker jag nog du ska göra det till en eller flera dummyvariabler, dvs antingen göra om det till bra/dåligt eller ha ett av värden på skalan som referens och göra dummy-variabler för de andra svaren. Det blir också mer problematiskt om värdena på ordinalskalan är mindre symmetriska än i exemplet ovan, till exempel om det skulle vara ”Dåligt”, ”Ganska bra”, ”Fantastiskt” och ”Det bästa någonsin” – då är det svårare att hävda ekvidistans, dvs att avstånden mellan skalstegen är lika stora.
Om du ska göra det till en eller flera dummyvariabler beror på var du tror att skiljelinjerna går i data: kan variabeln delas in i två tydliga kategorier, eller finns det andra stora skillnader? Om du i exemplet ovan tror att det finns en skillnad mellan vad de som svarat ”Ganska bra” och ”Mycket bra” tycker så kan du göra dummyvariabler för ”Mycket bra”, ”Ganska bra”, ”Ganska dåligt” och ”Mycket dåligt” och använda ”Varken bra eller dåligt” som referenskategori. Men det blir antagligen enklare att tolka om du gör en dummyvariabel av alltihopa.
2. När det gäller den logistiska regressionen är det samma sak – har du en variabel med fem eller fler värden kan du kanske köra på den som en intervallskala. Annars gäller samma sak.
Det är faktiskt ingen skillnad mellan att göra dummies eller att behandla variabeln som kategorisk och välja en referensgrupp: när du säger till SPSS att du har en kategorisk variabel så gör den också dummies, fast automatiskt.
Uppdatering 2010-03-16
Några litteraturtips angående om ordinalskalor kan användas som intervallskalor: I den här artikeln av Susan Jamieson (2004) i tidskriften Medical Education diskuteras frågan. Hennes rekommendation är att man inte bör göra det om man vill vara korrekt.
Hon refererar också bland annat till den här artikeln av Thomas Knapp (1990) i tidskriften Nursing Research. Knapp är lite mer tillåtande, och menar att det kan vara befogat ibland.