I det här inlägget ska vi:
- Transformera en snedfördelad variabel så att den blir mer normalfördelad.
- Ta fram histogram över variabeln.
I det här inlägget ska vi:
Jag hade tänkt göra en ny guide till någon typ av analys och lägga upp här på bloggen. Tyvärr har jag inte så mycket tid som jag skulle önska, och undrar därför vad som egentligen efterfrågas. Vad ska nästa guide handla om?
Jag har försökt tänka ut några ämnen till saker som är bra att kunna och gjort en omröstning. Lägg din röst på det du helst vill se i nästa guide. Om det inte finns med i listan, välj ”Other”, och skriv vad du önskar dig!
Q: Jag kodar en datamängd för hand, och jag undrar hur jag ska skriva in olika kategoriska variabler, som till exempel parti. Det finns väl kanske egentligen ingen anledning att numrera dem, eller? Går det lika bra med bokstavsförkortningar (lättare att avläsa)?
Q: Jag har ett svagt minne av att jag under en lektion i kvantitativ metod hörde att ordinalskaltyper kan behandlas som kontinuerliga utfallsvariabler i multivariat regressionsanalys om de har 5 skalsteg eller mer. Stämmer detta?
Fortsätt läsa ”Läsarfråga: Ordinalskalor som beroende variabel”
Statistik är ett utmärkt verktyg för att undersöka saker i samhället. Men statistiska undersökningar bygger sällan på totalurval, dvs att man undersökt alla de enheter man är intresserad av. Istället använder man sig av slumpmässiga urval. Om man till exempel vill veta hur många av Sveriges väljare som kan tänka sig att rösta på socialdemokraterna är den säkraste metoden naturligtvis att leta upp varenda väljare och fråga dem. Eftersom det är ganska opraktiskt väljer man istället ut ett par tusen väljare slumpmässigt, och frågar dem. Man antar sedan att de är representativa för resten av befolkningen. Men den här metoden gör att det blir en viss osäkerhet kring resultaten, en felmarginal. Utifrån felmarginalen kan vi sedan ta fram ett konfidensintervall. Vi kan sedan med en viss procents säkerhet, till exempel 95 procent, säga att det sanna värdet befinner sig inom konfidensintervallet.
Q: En av variablerna som jag testar i multipel linjär regression har svarsalternativen 1= aldrig, 2=sällan, 3=ofta, 4= väldigt ofta. Jag har i analysen nu gjort dummyvariabler av samtliga utom nr 4, vilken jag jämför med. Så långt inga problem. Däremot går jag problem med multikollinearitet i variablerna 1 & 2 när jag lägger in dem i en regressionsmodell med andra variabler. Spontant känns det inte så underligt att de kanske är beroende av varandra och verkar liknande på den beroende variabeln eftersomd de är skapade ur samma grundvariabel. Men hur tar jag hänsyn till detta? (väger jag samman svar 1 & 2 har jag åter en tolerabel nivå för multikollinearitet men jag skulle föredra att inte göra på detta vis).
Fortsätt läsa ”Läsarfråga: Multikollinearitet i dummyvariabler”
Q: Jag håller på att skriva en longitudinell kvantitativ studie där jag jämför data från olika utgåvor av Eurobarometern. Som läget ligger nu har jag jämfört dessa för hand men min handledare hävdar att det skall gå att slå ihop datamängder elektroniskt (två åt gången duger för mig) och då testa signifikans med hjälp av ett enkelt t-test. Hur slår jag ihop datamängderna och hur behandlar jag datan efter detta? Jag skall jämföra svaren på en fråga mellan två länder (olika för varje undersökning) och eventuellt kontrollera för kön, det är alltså alldeles vanliga Crosstabs jag arbetar med.
Fortsätt läsa ”Läsarfråga: Slå ihop datamängder, korstabeller, t-test.”
Q: Jag har några frågor gällande ordinaldata och multivariat analys:
1. Om jag gör en linjär multipel regression och har en oberoende variabel som är ordinal, ska jag då göra en dummy variabel av denna eller inte?
2. Om jag gör logistisk regression och en av de oberoende variablerna är ordinal, gör jag då dummys eller behandlar jag variabeln som kategorisk och väljer en referensgrupp?
Fortsätt läsa ”Läsarfråga: Ordinalskalor till dummies”
Den här bloggen handlar framförallt om SPSS, men här kommer ett litet inlägg som rör statistikprogrammet STATA. När man gör regressionsanalyser med många kontrollvariabler blir outputen ofta bökig – många variabler är inte av intresse för tolkningen av resultaten. Därför har jag gjort ett kommando för att bara visa de variabler man är intresserad av: simple.
Q: I materialet har jag information för lön i timlön, vilket resulterar i en siffra för antal kronor varje individ tjänar i timmen. Det blir opraktiskt när jag vill använda informationen och försöker därför hitta ett sätt att dela in materialet i i nivåer. Alltså att nivå 1 = 38-78 kr, nivå 2= 79-130 kr osv.. Så exempelvis man kan se hur många kvinnor resp. män ligger i varje intervall.
Vet du hur jag kan göra detta på ett bra sätt??