SPSS for Windows


Inhoud

In dit onderdeel willen we je een handleiding aanreiken voor het gebruik van SPSS bij de verwerking van je onderzoeksresultaten. Voor een printbare versie van deze manual download dit PDF-formaat.
De inhoud van dit onderdeel is als volgt opgebouwd:



1 SPSS inleiding


1.1 SPSS opstarten

SPSS for Windows is een zuivere Windows-toepassing. Dit houdt onder meer in dat je het programma kan opstarten door achtereenvolgens aan te klikken: start, programs, SPSS for Windows, SPSS 10.0 for Windows. Indien er een icoon van SPSS op je desktop staat kan je SPSS for Windows ook opstarten door te dubbelklikken op het icoon.
Wanneer SPSS wordt geopend verschijnt er een dialoogkader met de vraag wat we willen doen in SPSS.

keuzemogelijkheid


We hebben 5 keuzemogelijkheden:


1.2 SPSS vensters

Bovendien is SPSS net zoals andere Windows-toepassingen (vb. Word) gestructureerd aan de hand van vensters en menu's. Binnen SPSS kunnen we drie types van vensters onderscheiden met elk hun eigen functie:


Windows



2 Algemene werkwijze


2.1 De menustructuur

SPSS werkt volledig menugestructureerd zodat de meeste mogelijkheden bereikbaar zijn door de opties te selecteren uit de menu's. Het menusysteem in het applicatievenster (zowel de data-editor als de output applicatie) ziet er als volgt uit:


2.2 De statusbalk in het applicatievenster

Onderaan in het applicatievenster is de statusbalk zichtbaar. Wanneer de processor bezig is met het uitvoeren van een commando verschijnt hierop de naam van dit commando. Wanneer je slechts met een beperkt aantal cases werkt doordat je bvb. een steekproef hebt getrokken dan verschijnt op de statusbalk 'filter on'.


2.3 Dialoogvensters

Een dialoogvenster is een venster dat verschijnt wanneer een bepaalde optie uit het menu is geselecteerd. Het dialoogkader wordt gebruikt om het gevraagde commando te specifiëren.
Wanneer er bijvoorbeeld wordt gevraagd om een frequentietabel te berekenen van een variabele uit de datafile dan verschijnt een volgend dialoogvenster.

dialoogkader

In het bovenstaande dialoogkader zijn de volgende elementen aanwezig:


Opmerking 1: wanneer je in het dialoogkader informatie wenst betreffende een bepaalde variabele dan klik je met je linkermuisknop om de variabele te selecteren in de 'bronlijst'. Nadien klik je met de rechtermuistoets in deze lijst en kies je voor 'variable information'. Een pop-up venster geeft een overzicht van de variabele (naam, meetniveau, aantal labels, naam van deze labels).
Opmerking 2: numerieke variabelen worden in de bronlijst aangeduid met een kardinaalgetal, string variabelen met de letter A.

Wanneer je SPSS je een dialoogkader toont waarvan je niet weet wat alle mogelijke functies inhouden kan je steeds om hulp vragen. Klik de rechtermuisknop op de analyse waarvoor je hulp wenst. Een pop-up window verschijnt en toont informatie over de betreffende analyse.



3 Data hantering in SPSS


3.1 Data ingeven en veranderen

De gegevens worden in SPSS ingebracht via de Data Editor. Dit venster is een spreadsheet-achtige methode om een datamatrix in te tikken, te bekijken en te bewerken. Je komt op dit venster door bij het opstarten van SPSS te kiezen voor de optie 'type in new data'.
Is SPSS reeds opgestart dan kan je dit data-editor venster ook bekomen door de volgende selecties te maken: File, New, Data.

In de Data Editor gelden de volgende afspraken:

Voor het intekken van waarden in de datamatrix ga je als volgt te werk:


3.1.1 Definiëring van de variabelen

In de eerste fase van het intikken van de gegevens moeten we de variabelen definiëren. In het begin heeft elke kolom in de data-editor window de variabelenaam 'var' en is elke cel leeg.

Onderaan het venster zie je dat de Data Editor onderverdeelt is in twee mappen: Data View en Variabele View. Om data in te voeren moet je eerst je variabele definiëren. Dit kan je doen door te klikken op de map 'Variabele View' of je dubbelklikt op de variabele naam 'var' aan het hoofd van elke kolom en de 'Variabele View' map wordt zichtbaar. In de kolom variabele namen klik je in de gewenste rij van de variabele en geef je de nieuwe variabele naam in.
Je variabele naam moet aan een aantal voorwaarden voldoen:

Omdat we getallen of woorden wensen in te voeren in SPSS moeten we ook aangeven wat voor type van gegevens de variabele is. Dit doe je door in de kolom 'Type' de cel te selecteren. Er verschijnt dan een grijs blokje. Als je op dit blokje klikt dan komt er een dialoogkader te voorschijnt voor het ingeven van het type van variabele. Je hebt een keuzemogelijkheid uit diverse types van data zoals numeriek, munteenheid, comma, datum en tekstwoord (string).
In de derde kolom ('width') duid je de grootte van je variabele naam aan.
Voor je vierde stap bepaal als je variabele een decimaal getal is, hoeveel decimalen er moeten zijn.
In 'label' kan je een omschrijving geven van je variabelenaam. Dit is vooral belangrijk bij de interpretatie van je statistische outprint. In de tabellen van je output vind je dan niet de variabele naam terug (bvb. opleidin) maar wel het volledige label (bvb. hoogst behaalde diploma).
In de zesde kolom moet je ingeven wat de waarden zijn van je labels (bvb. variabele geslacht: code 0 voor man en code 1 voor vrouw). Ook dit is zeer belangrijk om je output interpreteerbaar te maken. Anders krijg je tabellen met cijfers waarvan je niet meer weet waar elk cijfer voor staat. Hier wordt nog op ingegaan verder in deze handleiding.
Het invoeren van missing values doe je in een volgende stap. Meestal wordt er gebruik gemaakt van 9, 99, 999 of 9999 in de optie 'discrete missing values'. Dit wordt in de volgende alinea uitgelegd.
Je kan ook nog de kolomwijdte en de uitlijning opgeven.
De allerlaatste stap voor het definiëren van je variabele is het opgeven van het meetniveau.


3.1.2 En wat met de missing values?

Als je een vragenlijst afneemt, heb je meestal geen gegevens over alle antwoorden van alle respondenten. Het komt immers vaak voor dat respondenten het antwoord op een bepaalde vraag niet willen geven omdat ze de informatie té delicaat vinden. Ze laten de vraag dan open. Soms is het ook mogelijk dat respondenten een vraag wel invulden maar dat het antwoord onleesbaar is of totaal naast de kwestie is. Op dat ogenblik is het onmogelijk een waarde op te geven op de variabele die naar deze vraag peilde. Je zou de respondent dan uit de steekproef kunnen verwijderen maar dit zou absurd zijn omdat deze respondent wel valabele antwoorden gaf op de overige vragen. Een werkbare oplossing voor deze situatie is de respondent een missing value te geven voor deze onbekende waarde. De missing value is een speciale code die door SPSS wordt herkend, niet als echte code maar wel als een ontbrekende waarde. Concreet houdt dit in dat alle respondenten met een missing value als code op een bepaalde variabele, bij de statistische berekeningen voor die variabele niet worden betrokken. Het resultaat van het definiëren van missing values is dat SPSS alle cases met een missing value op een bepaalde variabele uit de analyses weert.

In SPSS roep je het dialoogvenster op door in de map 'Variabele View' de cel bij een bepaalde variabele aan te klikken in de kolom 'missing'. Dan verschijnt er in deze cel een rechthoekje waarop je nog eens klikt. Je hebt drie mogelijke opties voor het definiëren van de missing value:

dialoogkader


Meestal wordt de optie 'discrete missing value' gebruikt.



3.1.3 Data veranderen

Het wijzigen van data in SPSS is afhankelijk van waarom je wijzigingen wil aanbrengen. Wil je de waarde van 1 cel wijzigen of moeten er een hercodering van variabelen gebeuren?

Het veranderen van individuele waarden
Het wijzigen van een waarde uit één enkele cel is zeer eenvoudig. Je klikt op de cel die je wil wijzigen, typ de nieuwe waarde en druk op enter.


Kopiëren en plakken
Het is mogelijk om een blok cellen te selecteren en te kopiëren. Net zoals bij Word of Excel maak je dan gebruik van de methode 'Copy' en 'paste'.


Het verwijderen van waarden
Om een waarden in een cel of in een blok van cellen te verwijderen:


Het hercoderen van variabelen
Kijk hiervoor naar hoofdstuk 5: hercodering van variabelen



3.2 Data-file saven

Om je data-file te saven ga je te werk net zoals bij alle andere Windows toepassingen. Kies achtereenvolgens in de menustructuur: File, Save as. De 'Save as' dialoogkader wordt geopend. In dit venster geef je file een naam en definieer op welke locatie je de file wil opslaan, je duidt het type van je file aan (in spss is dit .sav) en klikt op OK.
Hou er wel rekening mee dat je data-editor venster actief moet zijn. Indien je reeds statistische analyses hebt gemaakt en je output-venster is actief dan zal je je output file opslaan en niet je data-file.

Opmerking: om te vermijden dat uren werk verloren gaan is het ten zeerste aangeraden om bij het intikken van je datamatrix regelmatig je werk te saven (bvb om het half uur). Op die manier verlies je maximaal het werk van een half uurtje wanneer de computer plots blokkeert of uitvalt.



3.3 Bestaande data-files openen in SPSS

Het is mogelijk om bestaanden datafiles (bvb. Excel-file) in SPSS te openen.
Afhankelijk van het type van file dat je wenst te openen heb je twee keuzemogelijkheden:

  1. eenvoudige datafile (bvb. excel):
  2. grote en/of complexe databank (bvb. access, foxpro): in deze databanken zijn de variabelen meestal gedefinieerd, om een goede transfer van je variabele namen en labels te garanderen gebruik je best de de volgende methode: File, Open database, New Query en de databank wizard wordt geopend, doorloop deze wizard en je gegevens zullen zo goed als mogelijki worden getransporteerd



4 Het creëren van een SPSS data-bestand in de praktijk!

Bij het doorlopen van dit hoofdstuk zal je leren hoe je bijvoorbeeld voor je thesis je gegevens uit de vragenlijsten vertaalt in SPSS. Het opstellen van een SPSS-databestand (of Excel-file) bestaat uit de volgende stappen:

Aan de hand van een voorbeeld zullen we deze verschillende stappen uitleggen. De enquête waarop we beroep doen bestaat uit gesloten vragen (geen multiple items scales). Het toekennen van labels aan open vragen is immers een onderwerp apart (wens je hierover meer informatie contacteer dan je docent).

In het verdere verloop van deze handleiding maken we gebruik van de onderstaande vragenlijst. Als je het bestand codering download op een diskette dan kan je de gegevens van 40 respondenten op onze korte vragenlijst geïllustreerd zien in SPSS.

Vragenlijst: kruis het antwoord van uw keuze aan door het bijbehorende bolletje in te kleuren.

1. Bent u man/vrouw
  Man   Vrouw

2. Hou oud bent u?
......... jaar

3. Wat is uw burgelijke staat?
  ongehuwd   gescheiden
  ongehuwd maar samenwonend met partner   weduwe/weduwenaar
  gehuwd  

4. Wat is uw hoogst behaalde diploma?
  Lager secundair onderwijs
  Hoger secundair onderwijs
  Hoger onderwijs, korte type
  Hoger onderwijs, lange type
  Universitair of post-universitair onderwijs

5. Wat is uw netto inkomen (gemiddeld bekeken over de voorbije 6 maanden)?
  19.999 Bef of minder   60.000 tot 69.000 Bef
  20.000 tot 29.999 Bef   70.000 tot 79.000 Bef
  30.000 tot 39.999 Bef   80.000 tot 89.000 Bef
  40.000 tot 49.000 Bef   90.000 tot 100.000 Bef
  50.000 tot 59.000 Bef   meer dan 100.000 Bef


4.1 Aanmaken van het codeboek

Coderen is het toekennen van getalsmatige labels aan de antwoorden. Deze codering is nodig om een latere verwerking via SPSS gemakkelijker te maken.

Voor het bepalen van de verschillende codes neem je je een niet-ingevulde vragenlijst. Je leeg codeboek ziet er als volgt uit (je kan dit maken in excel maar een papieren versie is hiervoor nog steeds het eenvoudigst):


Vraag Naam variabele Meetniveau Omschrijving Antwoord Code Label
1            
2            

Per vraag ken je een variabelenaam toe en bepaal je het meetniveau van de variabele. Nadien ken je labels toe aan alle antwoordcategorieën, ook aan de missing values.

Wanneer een vraag op interval- of rationiveau gemeten wordt, zal het antwoord een numerieke vorm aannemen.
Bijvoorbeeld: hoe oud ben je? .............
Het antwoord bij deze vraag is een getal. De variabele noem je leeftijd. Je antwoordcategoriën laat je variëren van 0 jaar tot 98 jaar. Wanneer een respondent zijn leeftijd niet heeft ingevuld, dan heb je met een missing value te maken. De codering van missing values zijn meestal 9, 99, 999 of 9999. In dit voorbeeld kiezen we ervoor om de waarde 99 op te geven als missing value.
Wanneer je een variabele meet op nominaal of ordinaal niveau, worden de antwoorden meestal ook in een numerieke code weergegeven. Er zijn enkele belangrijke reden om hiervoor te kiezen:

  1. Dit vereenvoudigt immers de aanmaak van een datafile: je moet minder gegevens intikken wat een tijdwinst oplevert en je hebt minder kans op fouten dan bij het typen van voluit teksten.
  2. Sommige statistische analyses in SPSS zijn niet mogelijk indien er geen gebruik wordt gemaakt van numerieke codes in de datafile!

Voor onze vragenlijst typen we dus numerieke codes voor de vraag: Wat is je geslacht? man of vrouw
De waarden (values) van de variabele geslacht worden hier mannelijk = 0, vrouwelijk = 1, missing value = 9
In je datamatrix zal je dus 0, 1 of 9 vinden.
Hou er wel rekening mee dat de statistische analyses op deze variabelen beperkt moeten worden tot het niet-metrische niveau. In menig onderzoek krijg je resultaten te horen als het rekenkundig gemiddelde van de variabele geslacht is 1,46. Uiteraard is dit een zinloze uitspraak daar je variabele geslacht slechts gemeten is op nominaal niveau.


Het codeboek voor deze vragenlijst ziet er als volgt uit:
Vraag Naam variabele Meetniveau Omschrijving Antwoord Code Label
1 geslacht nominaal geslacht van de respondent man 0 man
vrouw 1 vrouw
geen 9 geen informatie
2 leeftijd interval leeftijd van de respondent getal zoals ingevuld -
geen 99 geen informatie
3 burgerl nominaal burgerlijke staat van de respondent optie 1 1 ongehuwd
optie 2 2 samenwonend
optie 3 3 gehuwd
optie 4 4 gescheiden
optie 5 5 weduwe/weduwenaar
geen 9 geen informatie
4 opleidin ordinaal hoogst behaalde opleiding optie 1 1 lager secundair
optie 2 2 hoger secundair
optie 3 3 hoger kt
optie 4 4 hoger lt
optie 5 5 univ
geen 9 geen informatie
5 inkomen ordinaal nettoinkomen optie 1 1 < 19.999
optie 2 2 20.000 - 29.999
optie 3 3 30.000-39.999
optie 4 4 40.000 - 49.999
optie 5 5 50.000 - 59.999
optie 6 6 60.000 - 69.999
optie 7 7 70.000-79.999
optie 8 8 80.000 - 89.999
optie 9 9 90.000 - 99.999
optie 10 10 > 100.000
geen 99 geen informatie



4.2 Coderen van de vragenlijsten

Eens je codeboek is opgesteld, kan je beginnen met het coderen van alle ingevulde vragenlijsten. Je eerste stap in het coderen van een vragenlijst is het aanbrengen van een identificatienummer. Elk nummer is een overeenkomstige case uit je datafile. Dit cijfer breng je bovenaan op de eerste bladzijde van je vragenlijst aan in de rechterhoek. Voor je eerste vragenlijst is het nummer dan bijvoorbeeld 001. Het identificeren van je vragenlijsten is belangrijk voor het ontdekken van fouten gemaakt tijdens het intypen van je data. Stel je typt de gegevens van 300 enquêtes in. Bij het opvragen van je frequentietabel krijg je voor geslacht een onmogelijke waarde (bvb. 7). Je hebt dus duidelijk een typfout gemaakt. Wat nu? Indien je een identificatienummer hebt aangebracht kan je deze vragenlijst/case opnieuw opzoeken en je fout verbeteren. Zonder identificatienummer is deze case niet meer correct. Je kan nu wel willekeurig kiezen of je 7 een 0, 1 of 9 wordt maar dit is uiteraard een te vermijden praktijk.
Dit houdt in dat je met een herkenbare (opvallende) kleur per vraag het antwoord van de respondent in een gecodeerde vorm vermeldt. Dit vergemakkelijkt het intikken van de datamatrix aanzienlijk omdat men bij het inputten enkel maar de codes om de vragenlijsten moet overtikken zonder zich nog bezig te houden met de codering tijdens de input.

Een voorbeeld van een reeds ingevulde en gecodeerde vragenlijst (case 001):

001
1. Bent u man/vrouw
  Man         ingevuld   Vrouw                                         1
2. Hou oud bent u?
25 jaar                                                                     25

3. Wat is uw burgelijke staat?
  ongehuwd   gescheiden
  ingevuld   ongehuwd maar samenwonend met partner   weduwe/weduwenaar
  gehuwd                         2

4. Wat is uw hoogst behaalde diploma?
  Lager secundair onderwijs  
  Hoger secundair onderwijs  
  Hoger onderwijs, korte type         4
  ingevuld   Hoger onderwijs, lange type  
  Universitair of post-universitair onderwijs  

 
5. Wat is uw netto inkomen (gemiddeld bekeken over de voorbije 6 maanden)?
  19.999 Bef of minder   60.000 tot 69.000 Bef  
  20.000 tot 29.999 Bef   70.000 tot 79.000 Bef
  30.000 tot 39.999 Bef   80.000 tot 89.000 Bef           4
ingevuld   40.000 tot 49.000 Bef   90.000 tot 100.000 Bef  
  50.000 tot 59.000 Bef   meer dan 100.000 Bef  


4.3 Intikken van de datamatrix

Na het coderen van je vragenlijst kan je beginnen aan een intikken van je gegevens. Afhankelijk van de lengte van je vragenlijst en het aantal cases vraagt wordt de benodigde tijd hiervoor verlengd. Er zijn twee stappen die je achtereenvolgens moet doorlopen: 1. definiëren van je variabelen, 2. intikken van je gegevens.

4.3.1. Definiëring van de variabelen

In de eerste fase van het intikken van de gegevens moeten we de variabelen definiëren. Dit gebeurt in de map Variabele View van de data editor.
De naam van de eerste variabele, Var00001, kan worden veranderd door de cel aan te klikken en de nieuwe variabele naam in te tikken. Onze eerste variabelenaam is het identificatienummer. De naam van de variabele wordt dan 'nummer'.
Voor de tweede stap moet je het type van de variabele opgeven. Je kan diverse types van data opgeven zoals numeriek, munteenheid, comma, datum en tekstwoord (string). Klik in de kolom type op het grijze blokje in de cel en je bekomt een lijst met deze verschillende keuzemogelijkheden. Voor ons identificatienummer is het type van deze variabele 'numeriek'.
Bij 'width' duid je de grootte van je variabele aan. Als je getal een decimaal is, bepaal je hoeveel decimalen achter de komma.
In 'label' kan je een omschrijving geven van je variabelenaam.
Het invoeren van missing values doe je in een volgende stap. Bij geslacht vul je '9' in in de optie 'discrete missing values'.
Je kan ook nog de kolomwijdte, de uitlijning en het meetniveau opgeven.

Het definiëren van de verschillende values (waarden) is belangrijk wanneer de numerieke code geen aanduiding meer is van de werkelijke betekenis. Zo doe je er bijvoorbeeld goed aan voor de numerieke code 0 en 1 een aanduiding te geven wat deze betekenen, namelijk man en vrouw bij de variabelenaam geslacht. Het dialoogkader 'define value labels' wordt opgeroepen door in desbetreffende cel te staan van de kolom 'values'. Op dat ogenblik staat er in die cel de waarde 'none'. Als je de cel aanklikt verschijnt er een grijs blokje. Bij het aanklikken van dit blokje verschijnt het dialoogkader.
Type bij value het cijfer '0' in en bij value label het woord 'man'. Klik nadien op add. Type vervolgens het cijfer '1' in bij value en 'vrouw' bij value label. Klik nadien op add. Vergeet ook niet de missing value te definiëren: '9' voor value en 'geen informatie' voor value label.
Nu heb je je labels voor de variabele geslacht gedefinieerd. Je dialoogkader ziet er dan als volgt uit:

dialoogkader


Het voordeel van het definiëren van je waarden is dat het de interpretatie van je analyses vereenvoudigt. In je output-venster zie je immers de waarde van de numerieke code staan en dit vergemakkelijkt de interpretatie. Een illustratie zal dit verduidelijken. Indien we bij het opvragen van een kruistabel voor de variabelen geslacht en burgerlijke staat de waarden niet definiëren, dan krijgen we in ons output-venster het volgende resultaat:

Een illustratie van het voordeel van het opgeven van de waarden van je codes:


Neem je codeboek bij de hand en voer achtereenvolgens de verschillende gegevens in in het Variabele View venster voor de variabelen uit ons voorbeeld. Indien je dit gedaan hebt zien de gegevens van de variabelen uit ons voorbeeld er in SPSS als volgt uit:

variabele view


4.3.2 Intikken van de gegevens

Zoals reeds in hoofdstuk 3.1 data ingeven en veranderen werd uitgelegd worden de data in SPSS ingebracht via de Data Editor.
Neem je gecodeerde vragenlijsten in de hand. Begin met het de eerste vragenlijst, geef het identificatienummer in en vervolgens breng je de andere gegevens in. Indien je de vragenlijsten door elkaar ingeeft (dus niet beginnend met nummer 1) dan kan je na het ingeven van je data je cases ordenen: druk achtereenvolgens Data, Sort Cases, breng variabele identificatienummer over naar de rechterkant, controleer of 'sort cases as ascending' aangeduid is en klik op OK.
De datfile van de persoon uit ons voorbeeld ziet er dan als volgt uit:

Nummer Geslacht Leeftijd Burgerl Opleidin Inkomen
001 1 25 2 4 4

Als je deze gegevens hebt ingetikt, sla je je datafile op. Je kan je file steeds vergelijken met onze datafile : codering.


4.4 Datacleaning

De laatste fase bij het maken van een data-file is de data-cleaning fase. Tijdens deze fase wordt de datamatrix gecontroleerd op mogelijke typ- en/of codeerfouten.
Om tikfouten op het spoor te komen zijn er twee mogelijke strategieën. Bij de eerste mogelijkheid neemt men weer alle ingevulde vragenlijsten in de hand en controleert men de volledig ingetikte datamatrix met de oorspronkelijke gegevens. Het nadeel van deze werkwijze is dat ze zeer lang duurt en het is maar de vraag of het zinvol is om zoveel energie te steken in deze methode. Daarom wordt in de praktijk meestal de andere methode gehanteerd waarbij men probeert de fouten te vinden door abnormaliteiten in de datamatrix op te sporen. Deze abnormaliteiten kunnen twee zaken zijn:

De eenvoudigste manier om deze onmogelijke waarden op te sporen is door een frequentietabel op te vragen. Klik achtereenvolgens: Analyze, Descriptive Statistics en Frequencies. Je krijgt dan het dialoogkader voor het opgeven van de frequentietabel. In het bovenstaande voorbeeld van onze korte vragenlijst krijg je het volgende dialoogvenster.


dialoogkader


Door het bekijken van de output kan je nagaan of je missing values correct opgegeven zijn en of er in de frequentietabel waarden voorkomen die onmogelijk zijn. Wanneer je codes voor burgerlijke staat lopen van 1 tot 5 met missing value 9 dan is een waarde zoals 12 uiteraard uit den boze.
Bij grote datasets kan het soms een probleem zijn om deze onmogelijke waarde terug te vinden in de eigenlijke data-editor. Daarom is het aan te raden om te werken met identificatienummers bij grote datasets(zie hoofdstuk 4.3 Intikken van de datamatrix : dit betekent dat je eerste variabele een identificatienummer is. Om tussen de duizenden respondenten dan die ene respondent terug te vinden met een onmogelijke waarde op burgerlijke staat, selecteer je alle cases met onmogelijke waarden. Dit doe je door achtereenvolgens te klikken: Data, Select Cases, optie 'If condition is satisfied' aanduiden, de conditie te specifiëren, Continue en OK. Nadien vraag je van een frequentietabel op van deze cases met onmogelijke waarden via hun identificatienummer.

Hoe selecteer ik cases met onmogelijke waarden?
Voorbeeld:
In een uitgebreide dataset vinden we bij het opvragen van de frequentietabel een onmogelijke waarde '12' voor de variabele burgerlijke staat.
Nu moeten we dit probleemgeval selecteren in de dataset (Data, Select Cases, optie 'If condition is satisfied' aanduiden, de conditie te specifiëren, Continue en OK). De conditionele voorwaarde wordt dan als volgt ingegeven:
                (burgerl<1|burgerl>5) & burgerl-=9
Dit betekent dat alles wat buiten het interval 1 tot 5 ligt en niet gelijk is aan 9, geselecteerd wordt. Vraag nu je frequentietabel op voor de variabele identificatienummer van de geselecteerde cases die waarden hebben die aan deze conditie beantwoorden.
Aan de hand van deze frequentietabel kan je de respondenten opsporen die onmogelijke waarden opgaven voor een bepaalde variabelen en deze waarde corrigeren. Na de verbetering maak je de selectie ongedaan (Data, Select Cases, all cases, ok) en bewaar je het bestand.

Zoek in ons voorbeeld de onmogelijke waarden op voor de variabele burgerlijke staat. Verander de foutieve codering door een 3 (= getrouwd). Nadien maak je de selectie ongedaan en sla je je bestand op.



5 Data manipulatie

Soms moet je in de loop van je onderzoek bepaalde statistische analyses maken die onmogelijk zijn op je ruwe dataset. SPSS maakt het dan mogelijk om je datamatrix te manipuleren zodat we wel instaat zijn om de gewenste analyses uit te voeren voor ons onderzoek.


5.1 Het creëren van nieuwe variabelen a.d.h.v. reeds bestaande

Een nieuwe variabele creëren op basis van reeds bestaande variabelen betekent meestal dat je nood hebt aan een samengestelde variabele in je onderzoek. Vooral in de psychologie en sociologie wordt deze methode vaak toegepast. Zo kan je van een persoon zijn individuele scores te weten komen per vraag in een intelligentietest. Door middel van het creëren van een samengestelde variabele, tel je de score van alle variabelen op een bepaalde subtest op en bekom je bijvoorbeeld de intelligentiescore op taalgebied. Deze samengestelde variabele kan men dan gebruiken om conclusies te trekken rond het verband tussen intelligentie en andere variabelen (bvb. is er een verschil in intelligentie naar gelang het inkomen of het geslacht). Ook in marktonderzoek wordt hiervan gebruik gemaakt. Zo kan men in een vragenlijst diverse attitudes nagaan van een respondent ten aanzien van een bepaald merk. De som van alle antwoorden op de vragen die attitude meten, geven dan een globaal overzicht van hoe deze respondent tegenover dat merk staat. Zal hij geneigd zijn om het merk wel of niet aan te kopen?

Om een nieuwe variabele te creëren selecteer je: Transform, Compute en het dialoogvenster 'Compute Variable' komt tevoorschijn.
Dit dialoogvenster is bijna identiek aan het dialoogvenster voor select cases, if. Om een nieuwe variabele te definiëren:

Voorbeeld: we doen een onderzoek in een fitness-centrum en vragen aan de sportliefhebbers hoeveel tijd ze gemiddeld spenderen in het centrum, hoe vaak ze nieuwe schoenen/kledij kopen, hoe veel toestellen ze gemiddeld gebruiken en hoelang ze aan krachttraining doen. Stel dat we vor ons onderzoek een globaal idee willen krijgen over de status van onze fitness-gebruikers, meer bepaald is deze gebruiker een occasionele gebruiker, free time gebruiker, liefhebber of profesional. Hiervoor kunnen we de scores op de 5 variabelen samentellen zodat we een eindscore bereiken. Op basis van deze eindscore wordt de gebruiker in 1 van deze status-categoriën gevoegd. De definitie van onze samengestelde variabele zou er dan als volgt uit zien:

dialoogkader samengestelde variabele


Wil je dit zelf eens uitproberen in SPSS? Download dan de fitness data-file.


5.2 Het hercoderen van variabelen

Het hercoderen van een variabele wordt meestal gebruikt als men een aantal categoriën wil beperken om op die manier het verrichten van statistische analyses te vereenvoudigen.
Om een variabele te hercoderen kies: Transform, Recode, Into different variables waardoor het 'Recode into different variables' dialoogkader wordt opgeroepen.
In dit venster geef je de naam voor je nieuwe variabele op en breng de oude variabele van de linkerkolom over naar de rechterkolom. Klik nadien op 'Old en New Values' en het volgende subdialoogvenster wordt opgeroepen:

Old en new values



Het principe van hercodering verloopt als volgt:


De SPSS gebruiker geeft 7 mogelijkheden om de oude code aan te geven:

  1. Value: om één enkele code aan te geven
  2. System-missing: selecteert alle cases met een system-missing value (dit zijn waarden op een variabele die niet ingevuld zijn, in de datamatrix zijn deze te herkennen door een puntje)
  3. system- or user-missing: selecteert alle cases met een missing value (zelf gedefinieerd vb9 of een puntje)
  4. Range: geeft een interval aan van oude codes, inclusief de opgegeven grenzen
  5. Range: lowest: geeft een interval aan vanaf de laagste waarde van de variabele tot en met de opgegeven grens
  6. Range: ... through highest: geeft een interval aan vanaf een opgegeven grens tot en met de hoogste waarde van de variabele
  7. All other values: selecteert de nog niet aangewezen waarden

Stel dat we in ons voorbeeldje de variabele leeftijd willen hercoderen in drie groepen: jonge mensen, de actieve bevolking en de gepensioneerden. We gaan ervan uit dat veel jongeren nog studeren na hun 18 en daarom stellen we de leeftijd van de actieve bevolking pas beginnend op 26 jaar. De hercodering in het Old naar New kader ziet er dan als volgt uit:

Lowest thru 25 —> 1
26 thru 60 —> 2
61 thru highest —> 3




6 SPSS-procedures voor univariate statistiek

Hieronder vind je een lijst van de verschillende opties die je moet aanklikken om een bepaalde opdracht uit te voeren (opmerking: deze lijst is gebaseerd op de menustructuur van SPSS 10.0, in lagere versies is analyze = statistics):



7 SPSS-procedures voor bivariate statistiek

Wanneer we twee variabelen van nominaal of ordinaal meetniveau met elkaar in verband brengen dan kunnen we de Crosstabs-procedure worden gebruikt om kruistabellen en bijbehorende statistische parameters te berekenen. Om de relatie tussen twee variabelen op interval of ratio meetniveau na te gaan is het produceren van een scatterplot (grafische weergave van de relatie) aangeraden. Voor de sterkte van het verband tussen deze twee variabelen voer je dan een regressie-analyse uit. (opmerking: deze lijst is gebaseerd op de menustructuur van SPSS10.0.)