Läsarfråga: Överlappande konfidensintervall

Q: Jag har data på temperaturen i två grupper som jag vill se om de är signifikant skilda från varandra. Jag har beräknat ett konfidensintervall (95%) och det överlappar. När jag gör ett t-test ger det dock att p<0,05 dvs att medelvärdena är signifikant skilda från varandra. Bör det inte ge samma sak, dvs att de ej överlappar och t-test ger p<0,05?

A: Mätningar av två saker kan ha överlappande konfidensintervall och ändå vara signifikant skilda. Tänk dig att det bara är ändarna som överlappar, som på bilden. Vi kan inte med 95% säkerhet säga att det röda värdet inte är är noll, och vi kan inte heller vara 95% säkra på att det gröna värdet inte är noll.

Däremot är det ganska sannolikt att det röda värdet faktiskt är större än det gröna. Anledningen är att det finns en viss osäkerhet i skattningen av båda värdena. För att det röda värdet inte ska vara större än det gröna så måste det alltså vara i den absoluta botten på konfidensintervallet, medan det gröna värdet samtidigt ska vara i den absoluta toppen på sitt konfidensintervall.

Det kanske kan hjälpa att tänka sig att man singlar två mynt. Sannolikheten för att det ska bli krona är 50% för båda mynten, men bara 25% för att båda ska bli det samtidigt.

Alltså: det är inte konstigt. Det är själva testet av skillnaden man framförallt ska lita på, inte konfidensintervallen, eftersom det inte är perfekt precision i TVÅ mätningar. Om du istället vill se om ett värde är signifikant skilt från noll så kommer det passa perfekt med konfidensintervallet – om konfidensintervallet överlappar noll är inte värdet signifikant skilt från noll, eftersom vi så att säga mäter värdet noll med perfekt precision.

Lögn, förbannad lögn och statistik

Statistik är ett utmärkt verktyg för att undersöka saker i samhället. Men statistiska undersökningar bygger sällan på totalurval, dvs att man undersökt alla de enheter man är intresserad av. Istället använder man sig av slumpmässiga urval. Om man till exempel vill veta hur många av Sveriges väljare som kan tänka sig att rösta på socialdemokraterna är den säkraste metoden naturligtvis att leta upp varenda väljare och fråga dem. Eftersom det är ganska opraktiskt väljer man istället ut ett par tusen väljare slumpmässigt, och frågar dem. Man antar sedan att de är representativa för resten av befolkningen. Men den här metoden gör att det blir en viss osäkerhet kring resultaten, en felmarginal. Utifrån felmarginalen kan vi sedan ta fram ett konfidensintervall. Vi kan sedan med en viss procents säkerhet, till exempel 95 procent, säga att det sanna värdet befinner sig inom konfidensintervallet.

Fortsätt läsa ”Lögn, förbannad lögn och statistik”