Guide: Stapeldiagram med error bars

Guide: Stapeldiagram med ”error bars”

I den här guiden ska vi gå igenom:

  • Varför det kan vara intressant att göra ett stapeldiagram med error bars
  • Hur man gör ett stapeldiagram med error bars
  • Hur det förhåller sig till signifikanstestning med ANOVA

När man redovisar resultat från statistiska analyser bör huvudmålsättningen vara att det ska vara så enkelt som möjligt för läsaren att förstå vad man har kommit fram till. Ett bra medel för att göra det lätt för läsaren är att använda olika typer av grafiska diagram. Ett diagram som många förstår och snabbt ger en överblick är stapeldiagram. De lämpar sig till exempel väl för at redovisa medelvärden i olika grupper. I experimentella studier är det vanligt att man redovisar medelvärdena i de olika experimentgrupperna med ett stapeldiagram, och så gör man sedan den riktiga analysen med en ANOVA.

Man kan också lägga till ”error bars”, streck som visar konfidensintervallet kring medelvärdena för att ge läsaren en indikation på om det är troligt att medelvärdena är signifikant åtskilda.

Fortsätt läsa ”Guide: Stapeldiagram med error bars”

Guide: Statistisk ”power” och urvalsstorlek i experimentell design

I den här guiden ska vi gå igenom:

  • Vad statistisk ”power” är
  • Hur man räknar ut urvalsstorlek för att få rätt power
  • Ett empiriskt test av teorin
  • En kortversion för dig som inte orkar läsa hela inlägget

Experimentell metod lade grunden för den vetenskapliga revolutionen som ledde fram till fantastiska framsteg inom framförallt naturvetenskap och medicin från 1600-talet och framåt. På senare tid har experimentell metod även vunnit insteg inom samhällsvetenskapen.

Grundprincipen för experimentell metod är att jämföra en kontrollgrupp med en experimentgrupp, som man utsätter för någon behandling. Om experimentgruppen skiljer sig tillräckligt mycket åt från kontrollgruppen förkastar vi den så kallade nollhypotesen – att behandlingen inte haft någon effekt. Vanliga metoder för att pröva skillnaden mellan två eller flera grupper är t-test eller variansanalys. Med hjälp av dessa metoder kan vi avgöra om det är troligt att en skillnad mellan grupperna beror på slumpmässig variation, eller om den kan tillskrivas behandlingen.

Fortsätt läsa ”Guide: Statistisk ”power” och urvalsstorlek i experimentell design”

Guide: Signifikans och one sample t-test

I den här guiden ska vi gå igenom:

  • Kort om statistisk signifikanstestning
  • Skillnaden mellan independent samples t-test och one sample t-test
  • Hur man genomför ett one sample t-test
Är en majoritet i USA för legalisering av marijuana?

Jag har tidigare skrivit om att jämföra medelvärden med t-test. T-testet är väldigt användbart, då man kan jämföra om två medelvärden skiljer sig signifikant ifrån varandra. Om vi har gjort slumpmässiga urval ur två grupper (till exempel kvinnor och män), och medelvärdena i de två grupperna är signifikant skilda på 95%-nivån, betyder det att vi med 95% säkerhet kan säga att medelvärdena i populationen ur vilken vi gjort urvalet (alltså alla kvinnor och män i Sverige) inte är samma. Vi kan inte vara 95% säkra att skillnaden i den stora populationen är just den vi har uppmätt – bara att det finns en skillnad.

Fortsätt läsa ”Guide: Signifikans och one sample t-test”

Guide: Flernivåregressionsanalys, del 2

I den här guiden ska vi gå igenom:

  • Hur man lägger in fixerade effekter på nivå 1 och nivå 2
  • Hur man låter effekten av nivå 1-variabler variera mellan nivå 2-enheterna
  • Visualisering av varierande effekter
  • Hur man kan förklara variation i effekt

I den första delen av den här guiden undersökte vi data om priser på bostadsrätter i Göteborg. Vi fann då att det fanns signifikant variation i pris mellan olika stasdelar (nivå 2-enheterna). Nu ska vi undersöka om nivå 1-variabler, alltså egenskaper för varje enskild lägenhet, kan påverka priset, om stadsdelsegenskaper kan påverka priset, och slutligen om nivå 1-egenskaperna varierar mellan stadsdelarna. Data för den som vill följa med kan laddas ned härifrån.

Fortsätt läsa ”Guide: Flernivåregressionsanalys, del 2”

Guide: Flernivåregressionsanalys del 1

I den här guiden ska vi gå igenom:

  • Varför man ibland bör använda flernivåregressionsanalys istället för OLS
  • Hur man räknar ut intraklasskorrelationskoefficienten

Den absolut vanligaste tekniken för regressionsanalys är den så kallade OLS-tekniken. Med den kan man undersöka samband mellan en beroende variabeln och en eller flera oberoende variabler. I den här guiden tänkte jag försöka gå igenom en annan teknik, flernivåregressionsanalysen (multi-level regression analysis på engelska).

Fortsätt läsa ”Guide: Flernivåregressionsanalys del 1”

Guide: Kontrollvariabler i regressionsanalys

I den här guiden ska vi gå igenom:

  • Hur samband kan verka vara mer positiva än vad de egentligen är
  • Hur samband kan verka vara mer negativa än vad de egentligen är
  • En lathund för vilka effekter man ska förvänta sig av utelämnade variabler

I bivariat regressionsanalys kan man undersöka om det finns ett linjärt samband mellan två variabler. Men ofta talar man om att man behöver föra in kontrollvariabler i regressionsanalysen. Anledningen är att om man missar att ta med de relevanta kontrollvariablerna riskerar att dra felaktiga slutsatser om huvudsambandet. I den här guiden ska vi gå igenom de två sätt på vilket man kan dra felaktiga slutsatser, och vad som man kan förvänta sig händer med huvudsambandet när man introducerar olika kontrollvariabler.

Fortsätt läsa ”Guide: Kontrollvariabler i regressionsanalys”

Läsarfråga: Överlappande konfidensintervall

Q: Jag har data på temperaturen i två grupper som jag vill se om de är signifikant skilda från varandra. Jag har beräknat ett konfidensintervall (95%) och det överlappar. När jag gör ett t-test ger det dock att p<0,05 dvs att medelvärdena är signifikant skilda från varandra. Bör det inte ge samma sak, dvs att de ej överlappar och t-test ger p<0,05?

A: Mätningar av två saker kan ha överlappande konfidensintervall och ändå vara signifikant skilda. Tänk dig att det bara är ändarna som överlappar, som på bilden. Vi kan inte med 95% säkerhet säga att det röda värdet inte är är noll, och vi kan inte heller vara 95% säkra på att det gröna värdet inte är noll.

Däremot är det ganska sannolikt att det röda värdet faktiskt är större än det gröna. Anledningen är att det finns en viss osäkerhet i skattningen av båda värdena. För att det röda värdet inte ska vara större än det gröna så måste det alltså vara i den absoluta botten på konfidensintervallet, medan det gröna värdet samtidigt ska vara i den absoluta toppen på sitt konfidensintervall.

Det kanske kan hjälpa att tänka sig att man singlar två mynt. Sannolikheten för att det ska bli krona är 50% för båda mynten, men bara 25% för att båda ska bli det samtidigt.

Alltså: det är inte konstigt. Det är själva testet av skillnaden man framförallt ska lita på, inte konfidensintervallen, eftersom det inte är perfekt precision i TVÅ mätningar. Om du istället vill se om ett värde är signifikant skilt från noll så kommer det passa perfekt med konfidensintervallet – om konfidensintervallet överlappar noll är inte värdet signifikant skilt från noll, eftersom vi så att säga mäter värdet noll med perfekt precision.