CURSUS Excel statistiek

 

Verkenning dataset.

Indien je een nieuw bestand of dataset voor statistische analyse hebt is het verstandig om eerst deze dataset goed te bekijken voordat je gaat analyseren.

Open het bestand "DataWoonwensenStudenten.xlsx"

De eerste rij bevat de namen van de variabelen die corresponderen met de enquête vragen (Enquête woonwensen studenten propedeuse.pdf). Op iedere volgende rij staan de antwoorden van de respondenten. Rij 1 tot en met 270 is ingevuld. De bovenste rij valt af omdat dit de variabelen zijn, dat wil zeggen dat 269 respondenten de enquete ingevuld hebben.

Het bestand bestaat uit 35 kolommen, voor iedere vraag een kolom.

Er zijn enquêtevragen waarop het antwoord een getal is en vragen waarop het antwoord geen getal is. Als het antwoord een getal is betreft het een ratio of interval vraag.
Is het antwoord geen getal dan betreft het een nominale of ordinale vraag.
Reistijd is b.v een ordinale vraag. Mijn voorkeur is om ordinale vragen altijd vooraf te laten gaan met een nummer (hier "1 minder dan 10 min", "2 10-20 min"). Het voordeel hiervan is dat in tabellen en grafieken de juiste sorteer volgorde gehanteerd wordt, wat iets essentieels is voor ordinale variabelen.

Ga na welke variabelen nog meer ordinaal zijn.

De variabele Omgeveilig (meet de belangrijkheid van het aspect veiligheid in de buurt) is een categoriale variabele. Categoriale variabelen kunnen nominaal of ordinaal zijn. Omgeveilig is een ordinale variabele, dus speelt de volgorde (ordening) een rol.
N.a.v. het bekijken van de structuur heb ik de namen veranderd van:

"belangrijk", "neutraal", "onbelangrijk", "zeer belangrijk", "zeer onbelangrijk"

in

"1 zeer belangrijk", "2 belangrijk", "3 neutraal", "4 onbelangrijk", "5 zeer onbelangrijk"


Deze verandering heb ik gedaan met de zoek en vervang functie in het Excel bestand.
De volgorde bepaald straks ook de volgorde waarin de waarden in tabellen of grafieken komen te staan, en is van essentieel belang. Een berekening van de mediaan zal in het eerste geval misschien een andere mediaan geven dan in het tweede geval.

Ga je gebruik maken van een eigen Excel bestand gebaseerd op de data van een door jou afgenomen enquete, controleer dan eerst of de data wel kloppen. Wat b.v. vaak voorkomt is dat bij een vraag hoe oud iemand is, er ingevuld wordt "18 jaar" i.p.v gewoon 18. Verander "18 jaar" dan in 18.
ook kan het voorkomen dat bij een vraag waar naar de woonplaats van de respondent gevraagd wordt, heel veel plaatsen genoemd worden. Vaak is het handig om die plaatsen dan te hercoderen zodat alleen die plaatsen die veel voorkomen genoemd worden, en al de plaatsen die maar een keer genoemd worden plaats je onder overige.

Bij twijfel overleg met je docentbegeleider