Guide: Regressionsanalys i Excel 2007

I den här guiden ska vi

Gå igenom hur man genomför bivariat och multivariat regression i Excel 2007

I tidigare inlägg har vi gått igenom hur man genomför och tolkar regressionsanalys i SPSS. Renodlade statistikprogram som SPSS är naturligtvis det bästa om man ska göra statistiska analyser, men i de fall man inte har tillgång till SPSS så kan det vara bra att veta hur man kan göra regressionsanalyser i Excel, vilket går utmärkt. Jag använder mig av den engelska versionen av Excel 2007, men det ska fungera lika bra i svenska Excel 2007, och jag tror att kommandot också finns i Excel 2003 och 2010.

Datamängden ska vara organiserat på samma sätt som i SPSS, det vill säga att varje rad representerar en analysenhet, och varje kolumn en variabel. I det här exemplet kommer jag att använda mig av en konstruerad datamängd, som innehåller data för 50 personer på tre variabler: den beroende variabeln Y1, och de oberoende variablerna X1 och X2. För den som vill följa med i exemplet kan man ladda ner datamängden härifrån.

Bild 1 – Datastrukturen

Bivariat regression
Vi börjar med bivariat regression. Kommandot vi ska använda heter på engelska ”LINEST” och på svenska ”REGR”. I en valfri tom ruta skriver man in

=LINEST()

När man skrivit det, innan man trycker på enter, trycker man på funktionsknappen, som är ett f med ett x vid sig, och återfinns precis till vänster om formelfältet.

Bild 2 – Funktionsknappen

När man trycker på knappen får man upp en dialogruta, i vilket man behöver fylla i några saker. I fältet ”known y’s” ska vi skriva in vart vår beroende variabel finns. Antingen kan man skriva in det själv, eller trycka på knappen med en röd pil till höger och dra en markering kring den beroende variabeln. Man ska inte ha med variabelnamnet, utan markeringen ska börja på datavärdet för den första analysenheten och sluta på det sista datavärdet. Det blir i vårt fall alltså B2:B51. Alltså från ruta B2 till ruta B51.

I rutan ”known x’s” skriver man in motsvarande område för den oberoende variabeln, i det här fallet C2:C51. I rutan ”Const” ska man skriva TRUE och i rutan Stats ska man också skriva True. Det gör vi för att vi först av allt vill att det ska finnas med en konstant (ett intercept) i regressionen, samt att vi vill ha ut lite extra statistiska uppgifter. Tryck sedan OK.

Bild 3 – Dialogrutan för LINEST

I rutan där vi skrivit in formeln får vi nu ut ett tal. För att kunna få ut alla uppgifter vi behöver krävs att vi omvandlar gör två saker till. Gör en markering som börjar med formelrutan uppe i vänstra hörnet, och som är 2 kolumner bred och 5 rader hög. Tryck därefter på F2. Tryck sedan på CTRL+SHIFT+ENTER. Markeringen ska nu fyllas av olika tal.

Det viktigaste talet är det i det övre vänstra hörnet. Det är koefficienten för den oberoende variabeln. Den visar vilken effekt en förändring på en enhet uppåt i den oberoende variabeln har på den beroende variabeln. I det här fallet ser vi att koefficienten är 0.51.

I rutan till höger, G2, ser vi vad konstanten (interceptet) är. Under koefficienterna står standardfelet för de båda koefficienterna. I rutan F4 ser vi R2-värdet, som är 0.39.

Bild 4 – Resultaten av regressionsanalysen

Är då koefficienten signifikant? För att få reda på det behöver vi räkna ut ett t-värde. Det gör vi genom att dividera koefficienten med standardfelet. Det gör vi genom att i en tom ruta skriva

=F2/F3

Resultatet blir 5,55. Vad betyder det? T-värdet ska jämföras med ett kritiskt värde för att man ska se om koefficienten är signifikant eller ej. Det kritiska värdet hittar man i en tabell och beror på vilken säkerhetsnivå man vill ha. Vi väljer den konventionella 95-procentiga säkerhetsnivån. Det kritiska värdet beror också på hur många analysenheter man har. När man har väldigt många analysenheter är det kritiska värdet 1.96. I det här exemplet hade vi 50 analysenheter, och då är det kritiska värdet lite högre, ungefär 2.01. 5,55 är hursomhelts betydligt högre, vilket innebär att koefficienten med 95 procents säkerhet är skild från 0, dvs det finns med största sannolikhet en effekt av X1 på Y.

Här finns en länk till en kalkylator där man kan räkna ut signifikansvärdet. Man skriver då in sitt t-värde samt frihetsgraderna, vilket är antalet analysenheter minus 2.

Vi har nu fått ut det viktigaste från regressionen – effekten av X1 på Y, signifikansnivån, samt R2.

Multivariat regressionsanalys
Den multivariata regressionsanalysen gör man på samma sätt som den bivariata, med skillnaden att man i dialogrutan på ”known x’s” markerar ett område som inkluderar både data för X1 och X2, om man har två oberoende variabler.

När man utökar ytan som formeln täcker ska man istället för att göra en två kolumner bred och fem rader hög markering göra en markering som är tre kolumner bred och fem rader hög. Koefficienterna presenteras i omvänd ordning, så att variabel X2 står i kolumnen längst till vänster, X1 i mitten och interceptet längst till höger, som i bild 5.

Bild 5 – Resultatet av multivariat regression med två oberoende variabler.

Microsofts egna hjälpavsnitt till funktionen är också utmärkt för den som vill lära sig mer om regression i Excel.

4 reaktioner till “Guide: Regressionsanalys i Excel 2007”

Anonym skriver:

april 17, 2011 kl. 20:14

Räddaren i nöden!

Svara
Christine skriver:

september 26, 2011 kl. 06:37

Hej! Detta var toppen! Ska detta fungera i mac också? För jag kan inte få steget ”Gör en markering som börjar med formelrutan uppe i vänstra hörnet, och som är 2 kolumner bred och 5 rader hög. Tryck därefter på F2. Tryck sedan på CTRL+SHIFT+ENTER. Markeringen ska nu fyllas av olika tal.” att fungera, vad kan det bero på? Finns det något annat sätt att ta fram siffrorna också?

Svara
Frida skriver:

mars 27, 2012 kl. 19:40

Varför får jag negativa P-värden?

Svara
Fredrik Johansson skriver:

november 2, 2012 kl. 13:03

Hej,

Jag har följt instruktionerna. Mitt problem är att efter att ha tryckt f2 + shift-control-enter i de markerade cellerna så får jag exakt samma värde i alla celler. Dvs. alla värden är detsamma som resultatet, vilket innebär att mitt t-värde alltid blir 1. Har testat att uträkningarna på ett antal olika cellvärden och det blir likadant varje gång.

Vad gör jag för fel?

Hälsningar

Fredrik Johansson

Svara