I den här guiden ska vi:
- Gå igenom vilka delar som kan finnas med i en redovisning av statistiska resultat
- Se exempel på olika redovisningstekniker
Innehåll:
Introduktion
Del 1: Beskrivande statistik
Del 2: Enkla sambandsanalyser
Korrelationsmatris
Stapeldiagram
Spridningsdiagram
Ett argument för att göra enkla sambandsanalyser
Del 3: Sofistikerade analyser
Del 4: Alternativa test
Avslutning
Introduktion
En av utmaningarna när man gör statistiska analyser är att presentera resultaten på ett korrekt och pedagogiskt sätt. Det är inte alltid lätt att veta vilken information som man behöver presentera. I den här guiden tänkte jag därför gå igenom vad jag tycker bör finnas med i en bra resultatredovisning i till exempel en C-uppsats. Men det är här viktigt att tänka på att jag är verksam inom samhällsvetenskapen, och att konventioner för hur man redovisar resultat kan skilja sig mellan olika vetenskapsgrenar, och också mellan ämnen inom till exempel samhällsvetenskap eller naturvetenskap. Se alltså den här guiden som inspiration, inte som absoluta riktlinjer.
Två grundprinciper torde emellertid alltid gälla: redovisningen ska vara pedagogisk, och den ska vara korrekt.
Syftet med att göra en empirisk undersökning är ju att ta reda på svaret på någon fråga, men det är meningslöst om man inte kan förmedla resultaten till någon annan. Pedagogik är därför A och O.
Överlag tycker jag att en bra resultatredovisning (för en undersökning där huvudsyftet är att undersöka ett samband) innehåller tre delar, och en valfri fjärde del. Delarna är:
Del 1. Beskrivande statistik
Del 2. Enkla och tydliga sambandsanalyser
Del 3. Sofistikerade sambandsanalyser
Del 4. (Alternativa test av sambandet)
Nedan kommer jag gå igenom de olika delarna, och ge exempel på vad man kan ha med under varje del. I det här exemplet ska jag undersöka om det finns ett samband mellan korruption i ett land och nivån av mänsklig utveckling, mätt genom FN:s ”Human Development Index”. Data kommer från Quality of Government-datamängden.
Del 1: Beskrivande statistik
Syftet med den här delen är att ge läsaren en översikt över variablerna man kommer att jobba med. Det är nödvändigt för att läsaren till exempel ska kunna bedöma om effekter som uppmäts senare är stora eller små, eller vad som är normala värden på de olika variablerna, och så vidare.
Det vanligaste sättet att göra det, och något jag tycker är väldigt bra att ha med, är en tabell med beskrivande statistik. Tabellen brukar vanligen innehålla fem uppgifter för varje variabel: hur många observationer man har data för, medelvärdet, standardavvikelsen, det minsta värdet, och maxvärdet. Jag ska som sagt undersöka sambandet mellan korruption och mänsklig utveckling. I den sofistikerade analysen kommer jag med hjälp av en regressionsanalys undersöka om det eventuella sambandet håller under kontroll för andra variabler, och dessa ska också beskrivas i tabellen. Man får fram uppgifterna genom att gå in på ”Analyze->Descriptive statistics->Descriptives” och där välja de variabler man vill ha uppgifter om. Tabellen kan se ut som i Bild 1.
Bild 1. En tabell med beskrivande statistik.
Jag har avrundat till två decimaler – ibland ser man fler, men det brukar inte vara nödvändigt eftersom precisionen i modellerna i samhällsvetenskap oftast inte är så stor ändå. Notera också att jag skrivit ”avsaknad av korruption” istället för ”korruption”. Anledningen är att jag använder mig av Transparency International’s Corruption Perceptions Index, där höga värden betyder att det är lite korruption. Det gör att resultaten blir lättare att tolka längre fram.
En annan sak man kan ha med är någon utförligare beskrivning av den beroende variabeln, eller den oberoende, om den är mer i fokus, till exempel med ett histogram. I ett histogram kan läsaren se variabelns distribution, och det till exempel finns någon analysenhet som har något extremt värde. Man behöver däremot inte redovisa histogram för alla sina variabler.
Bild 2. Ett histogram.
Man ändrar färg på staplarna genom att dubbelklicka på diagrammet i outputfönstret, och därefter dubbelklicka på staplarna i ”Chart editor”; och sedan väljer man färg under fliken ”Fill & border”.
Del 2: Enkla sambandsanalyser
I del 2 är tanken att man ska testa sin hypotes eller undersöka sitt samband på ett tydligt och gärna visuellt sätt. Saker som man kan ha i del 2 är till exempel korrelationsmatriser, stapeldiagram eller scatterplots.
Korrelationsmatris
En korrelationsmatris visar de bivariata korrelationerna mellan alla variabler som ingår i analysen, även kontrollvariabler. Här kan man förutom att se en eventuell korrelation mellan den beroende och den oberoende variabeln också se hur de förhåller sig till kontrollvariablerna, vilket kan vara bra att veta när man gör mer sofistikerade analyser längre fram.
En korrelationsmatris gör man genom att göra en tabell med lika många rader och kolumner som det finns variabler. Varje variabel ska sedan skrivas ut i en rad och i en kolumn, som i Bild 3. I varje tabellcell skriver man sedan in den bivariata korrelationen mellan de två variablerna. Rutorna där samma variabel är både i rad och kolumn kan man lämna tomma. För att få fram korrelationerna går man in på ”Analyze->Correlate->Bivariate” och klickar i alla variabler som man är intresserad av. SPSS tar då fram en korrelationsmatris, men det är mycket snyggare att göra själva tabellen själv i till exempel Word eller Excel.
Bild 3. En korrelationsmatris.
Korrelationsmatrisen visar väldigt mycket information. Vi ser att Human Development Index har positiva korrelationer med alla de övriga variablerna: mer mänsklig utveckling hänger alltså ihop med mer avsaknad av korruption, mer demokrati, och mer latitud (landet är alltså beläget norrut). Nu ser man också varför det är bra att benämna korruptionsvariabeln ”Avsaknad av korruption” snarare än ”Korruption” – man kunde annars få intrycket att mer korruption ger mer mänsklig utveckling, när det är tvärtom.
I korrelationsmatrisen ser vi också att det kan vara lämpligt att gå vidare med en regression med kontrollvariabler eftersom både avsaknad av korruption (oberoende variabel) och mänsklig utveckling (beroende variabel) är positivt korrelerade med andra oberoende variabler. Det kan ge upphov till skensamband, det vill säga att det verkar som att beroende och oberoende variabler hänger ihop, när de i själva verket båda är orsakade av någon annan variabel (till exempel demokrati).
Stapeldiagram
För den här frågeställningen är det lämpligare att presentera huvudsambandet med en scatterplot, men när man har en frågeställning där den oberoende variabeln är olika kategorier (en nominalskala), som man sedan tänker undersöka med hjälp av regressionsanalys med dummyvariabler, kan det i del 2 vara lämplig att visa sambandet med ett stapeldiagram. För demonstrationens skull visar jag därför den genomsnittliga nivån av mänsklig utveckling i olika regioner i världen (ht_region i QoG-datamängden).
Ett stapeldiagram gör man genom att gå in på ”Graphs->Chart Builder” och sedan välja ”Bar->Simple bar”. Man drar sedan in den oberoende variabeln (Region) till x-axeln, och den beroende variabeln till Y-axeln. Observera att den beroende variabelns skalnivå måste vara inställd på ”Scale” i ”Variable view” för att detta ska fungera.
Bild 4. Ett stapeldiagram som visar medelvärdet på den beroende variabeln i olika kategorier.
Stapeldiagrammet visar medelvärden på ett snyggt och överskådligt sätt. Man ser till exempel snabbt att nivån av mänsklig utveckling är lägst i Afrika söder om Sahara, och högst i västra Europa och Nordamerika.
Spridningsdiagram (scatterplot)
När man har en kontinuerlig oberoende variabel och en kontinuerlig beroende variabel, som i det här fallet, är spridningsdiagram, eller scatterplots, ett utmärkt sätt att illustrera sambandet mellan de två variablerna. I Bild 5 har jag lagt in avsaknad av korruption på x-axeln, och mänsklig utveckling på y-axeln, ritat ut en regressionslinje, samt skrivit ut en kod på tre bokstäver för varje land.
Bild 5. Ett spridningsdiagram som visar huvudsambandet.
Ett spridningsdiagram visar massor av information: de båda variablernas fördelning, korrelation, samt vad enskilda observationer har för värden. Man kan här lätt upptäcka outliers som kan störa sambandet, och läsaren kan se vad enskilda observationer har för värden. Man ser i diagrammet till exempel att Sverige hamnar långt upp åt höger, vilket betyder att vi har hög mänsklig utveckling och låg korruption, vilket känns rimligt.
Man behöver inte ha med alla sakerna jag visat i del 2. Ledordet är tydlighet. Ta med det som du själv tycker illustrerar din berättelse på enklaste och tydligaste sätt. Ofta skummar folk (i alla fall jag!) först uppsatser snabbt, och då fastnar man ofta för tydliga diagram och grafer, vilket kan väcka intresse för resten av uppsatsen.
Ett argument för att göra enkla sambandsanalyser
Vissa kanske tycker att del 2 är onödig, när man ändå ska testa sambanden ordentligare i del 3, men jag håller inte med. Två huvudkategorier av fel när man gör en statistisk undersökning är 1: Att man hittar ett samband som vid första anblicken verkar tydligt, men som inte visar sig hålla för mer sofistikerade analyser, och 2: Att man i sofistikerade analyser hittar ett samband, men som visar sig bara finnas i en viss specifikation av en modell. Med det andra felet menar jag ett samband som kanske beror på en enda outlier, eller på någon speciell konstig kombination av kontrollvariabler, eller liknande.
Båda felen är problematiska. Alltså tycker jag att man först ska visa att det finns ett tydligt samband, till exempel i ett spridningsdiagram, och sedan också testa så att sambandet håller för tuffare kontroller. Jag tycker överlag att det är allvarligare att hävda att ett samband finns när det i själva verket beror på någon konstig statistisk grej som är svår att upptäcka, än att missa att utsätta sitt samband för de mest avancerade kontrollerna. Jag tycker alltså att det är bättre att göra lite för enkla analyser som inte tar hänsyn till allt men som är lätta att förstå, än att göra lite för komplicerade analyser som man drar fel slutsatser av. Men det är en högst personlig åsikt!
Del 3: Sofistikerade analyser
När vi nu i del 2 visat att det finns ett samband mellan den oberoende och beroende variabeln ska vi testa om sambandet håller för ytterligare kontroller. I det här fallet gör jag det med en regressionsanalys, men man hade här kunnat redovisa resultaten av till exempel en ANOVA eller liknande.
I tabellen som visar resultaten från regressionsanalysen har jag fyra modeller: modell 1 visar det bivariata sambandet, sedan lägger jag till de två kontrollvariablerna en i taget, och i den sista modellen inkluderar jag alla variabler.
Bild 6. Resultat av regressionsanalysen.
Det som vanligen är av intresse i en tabell av den här typen är hur effekten av den oberoende variabeln som är i fokus förändras när man lägger till olika kontrollvariabler. Vi ser i tabellen att effekten av avsaknad av korruption minskar när vi kontrollerar för demokrati och latitud, vilket innebär att en del av sambandet mellan avsaknad av korruption och mänsklig utveckling beror på att länder som inte är korrupta också är mer demokratiska och är belägna längre norrut. I den sista modellen kvarstår emellertid en tydlig effekt av avsaknad av korruption.
I den här delen har vi alltså visat att sambandet som man kunde se i spridningsdiagrammet också håller vid kontroll för andra variabler.
Del 4: Alternativa test
Många uppsatser, särskilt C-uppsatser eller motsvarande, slutar efter del 3, där man gjort det bästa statistiska test man kan komma på. Men i uppsatser som publiceras i vetenskapliga tidskrifter, särskilt inom nationalekonomi, är det vanligt att man försöker testa sitt samband ytterligare. Sektionen kallas då ofta för ”robusthets-test” eller på engelska ”robustness test”. Här finns det inga regler för vilka test man ska göra, men några möjliga alternativ är att:
Pröva andra operationaliseringar av beroende och oberoende variabler
I det här fallet kan man till exempel fråga sig om resultatet blir annorlunda om jag skulle använda någon annan mätning av korruptionen i ett land, till exempel den som görs av International Country Risk Guide (icrg_qog i QoG-datamängden) eller den som görs av Världsbanken (wb_cce). Överlag tycker jag alltid att man ska bestämma sig för det mått man tycker är bäst, på goda grunder, och köra på det. Men ibland kan det vara svårt att avgöra vilket som är bäst, och då kan man prova om resultaten blir likartade även med en alternativ operationalisering.
Utesluta speciella observationer
Det här är en riskabel strategi, då det inte får leda till att man till exempel tar bort observationer för att ”trolla fram” ett samband. Men ibland kan det vara så att några enskilda analysenheter driver hela sambandet, så att det egentligen inte finns något generellt samband trots att det verkar så i regressionsanalysen. Det upptäcker man oftast i ett spridningsdiagram,l vilket är en bra anledning till att redovisa sådana. Man kan då testa att göra om sin analys utan någon enskild analysenhet som sticker ut (antingen teoretiskt eller empiriskt).
Regressionsdiagnostik
Regressionsdiagnostik är ett samlingsnamn på mer tekniska test av hur tillförlitlig regressionen är. Multikollinearitetsanalys är ett sådant exempel – om de oberoende variablerna är starkt korrelerade blir skattningen av effekterna av dem inte helt korrekta. Jag tycker dock inte att man ska fästa någon större effekt vid multikollinearitet när det gäller kontrollvariabler – syftet med att inkludera dem är att de ska vara korrelerade med den oberoende variabeln, annars kan de inte påverka effekten av den oberoende variabeln, och då kan man lämna dem utanför modellen.
Man kan också undersöka om det finns heteroskedasticitet i modellen, vilket påverkar hur tillförlitliga signifikansnivåerna blir.
Pröva alternativa förutsägelser från teorin
Ett annat mer komplicerat alternativ är att tänka ut någon ytterligare implikation av teorin. Om teorin verkligen stämmer, borde vi då hitta någon effekt av den oberoende variabeln på någon annan beroende variabel? Om man kan visa att en sådan effekt också finns har man stärkt teorin ytterligare.
Resultaten av dessa analyser presenteras ofta inte lika noggrant som de huvudsakliga analyserna, utan det räcker ofta med att man säger att man gjort dem, och vad resultaten i stort pekade på. Man kan eventuellt redovisa dem i ett appendix.
Det var bara några exempel, och det finns inga regler för hur man bör göra här. Ofta behöver inte heller den här delen ingå i en uppsats. Ett problem med den här typen av analyser är att eftersom det saknas ordentliga konventioner för vilka analyser man ska göra kan prova att göra massor av olika analyser, och sedan bara presentera de som gav ”rätt” resultat.
Det är också inte helt ovanligt att man testar olika tekniska specifikationer av regressionsanalys, som jag inte tänker gå in på här, men överlag är jag emot det. Det blir lätt att man bara gör ett flertal körningar och närapå räknar hur många som ger stöd för teorin. Det bästa är naturligtvis att man hittar den mest korrekta modellspecifikationen och sedan drar slutsatser ifrån den.
Avslutning
Det var alltså några exempel på vad man kan ha med i redovisningen av en statistisk undersökning, åtminstone som det brukar se ut i statsvetenskap. Men överlag tror jag att det är bra att tänka på att redovisningen ska vara pedagogisk, och att det är bra att gå från enkla analyser till mer sofistikerade. Utformningen av varje enskild uppsats bör dock bestämmas utifrån frågeställningen, och vad som passar bäst för att besvara den.
Najs blogg, sitter fint nu i uppsatstider ! Tack!!!
Hej!
Behöver man göra normalitetstest för alla sina variabler eller räcker det med den beroende variablen? Med andra ord vilka variabler bör man kontrollera för normalfördelning?
Med vänliga hälsningar
Evelina
Tusen tack för ett bra inlägg. Super när man ska börja sin resultatdel under uppsatsskrivningen och behöver lite guidelines!