CURSUS Excel statistiek

 

Data preparatie en bewerkingen

Als leidraad voor deze cursus wordt data gebruikt verkregen uit een enquête naar de woonwensen van propedeuse studenten van het instituut bedrijfskunde van de HAN gehouden in november 2016 (Enquête woonwensen studenten propedeuse.pdf). 269 studenten hebben de enquête ingevuld. De gegevens van de enquête staan in het bestand DataWoonwensenStudenten.xlsx. Je kunt dit bestand downloaden door rechts op de naam te klikken en te kiezen voor "Opslaan als". Kies zelf een geschikte directory uit waarin je alle bestanden behorende bij deze cursus gaat opslaan (beter nog, maak een nieuwe directory met een duidelijk herkenbare naam b.v. "Enquête Woonwensen").

De enquête is verspreid via Google drive. Hoe je een enquête opstelt en uitzet via Google Drive leer je in de "Handleiding online enquêteformulier". Nadat de enquête uitgezet is en door de studenten ingevuld is ziet de output in Google Spreadsheet er als volgt uit.

Dit spreadsheet is met Bestand --> Downloaden als --> Microsoft Excel overgezet naar een Excel bestand op de eigen harde schijf. Het is belangrijk om dit zo te doen omdat je de originele data zo bewaart, en je op een kopie bewerkingen uitvoert. Mocht er iets verkeerd gaan, en je per ongeluk toch het bestand opgeslagen hebt, dan kun je altijd terugvallen op de originele data in Google Drive.

Data preparatie.

Zelden is de data zo te gebruiken voor je analyses. Onderstaande handelingen moet je vaak verrichten.

De tijdsstempel kolom heb je niet meestal niet nodig voor je analyses, of het tijdstip van invullen zou van belang moeten zijn bij het beantwoorden van je onderzoeksvraag. In mijn voorbeeld heb ik de kolom tijdsstempel verwijderd.

Rij één bevat de enquêtevragen. Deze vragen zijn erg uitgebreid en kunnen lastig zijn (omdat ze zo lang zijn) bij verdere analyses. Ik heb ervoor gekozen om korte namen (variabele namen) te geven. Mijn spreadsheet ziet er daarom als volgt uit.

De volgende stap is de data te doorlopen op mogelijke fouten.
Er waren b.v. mensen die als leeftijd "18 jaar" of als woonoppervlakte "30 m2" ingevuld hadden. Daar heb ik "18" en "30" van gemaakt. Lastiger is het b.v als mensen woonlasten van 3000 ingevuld hebben en een inkomen van 450. In dat geval denk ik dat per ongeluk een nul teveel ingevuld is, maar zeker weet ik dat niet. Ik heb ervoor gekozen om dan die 3000 maar helemaal weg te laten (missing value).

Een andere aanpassing die ik gedaan heb is dat ik bij de ordinale variabelen cijfers toegevoegd heb om de volgorde te bepalen. Zo zijn er vragen met antwoorden: Zeer belangrijk, belangrijk, neutraal, onbelangrijk en zeer onbelangrijk. Ik heb daarvan gemaakt: 1 Zeer belangrijk, 2 belangrijk, 3 neutraal, 4 onbelangrijk en 5 zeer onbelangrijk. Dit heb ik ook gedaan bij b.v reistijd. Zo ben ik verzekerd dat de volgorde in mijn output tabellen altijd de juiste is. Wil ik die cijfers niet in mijn uiteindelijke rapport hebben, dan kan ik die cijfers in mijn uiteindelijke tabellen en grafieken zo weer weggehalen.

Navigatie.

Je zult heel vaak een hele kolom of meerdere kolommen naar een nieuw werkblad moeten kopiëren. Als kolommen naast elkaar staan kun je ze in één keer selecteren en kopiëren. Staan ze niet naast elkaar dan kun je eerst de eerste kolom selecteren en vervolgens de volgende kolommen door de <CTRL> ingedrukt te houden.
Je kunt de cursor ook snel verplaatsen naar het einde van een kolom of rij door de <CRTL> toets en een <PIJL> toets tegelijk te gebruiken. Een hele kolom of rij selecteer dan b.v. door bovenaan de klom te gaan staan, de <CTRL> en <SHIFT> in te drukken, en vervolgens een van de <PIJL> toetsen te gebruiken. Dit voorkomt dat je steeds door je data moet scrollen. Met <CTRL><END> en <CTRL><HOME> ga je snel naar het begin of einde van een werkblad.

Analyses.

Iedere nieuwe analyse start ik in een nieuw werkblad. De kolommen (of variabelen) die ik gebruik kopieer ik naar dat nieuwe werkblad. Het werkblad kun je een voor jou begrijpelijke naam geven b.v. "frequentietabel Woonsituatie" (of korter, "FR WoSitnu"), of "regressie Inkomen woonkosten" (Reg Ink Woonk). Op dat werkblad plaats ik dan de bijbehorende tabellen en grafieken. Vaak is een draaitabel uitgangspunt voor een grafiek of een andere analyse. Zo heb je alles bij elkaar staan. Maar zorg er wel voor dat je geen bewerkingen doet op je data werkblad. Wat je zou kunnen doen is na je data preparatie, het werkblad vergrendelen. Daarmee voorkom je heel wat narigheid.