Analyse - beschrijvende statistiek
Op deze pagina vind je meer informatie over een aantal beschrijvende statistieken. Elk van deze
statistieken kun je op ethologie.nl online maken. De volgende statistieken komen aan bod:
* Frequentie verdeling
* Histogram
* Kruistabel
* Spreidingsplot
* Gemiddelde en standaarddeviatie
* Betrouwbaarheid percentage
> Maak Statistieken Online
Frequentie verdeling
[Terug naar boven]
De frequentie verdeling is een samenvatting van een variabele, die aangeeft hoe vaak elk
van de categorieën voorkomt. Behalve het aantal keren dat de categorie
voorkomt, wordt meestal ook het percentage berekend. De frequentie verdeling is vooral
geschikt voor variabelen met een beperkt aantal categorieën. Als voorbeeld zie je hieronder
de frequentie verdeling van het gedrag van een papegaai. Het gedrag werd 60 dagen lang
iedere dag om 10 uur 's morgens vastgelegd. Elk van de 60 waarnemingen werd ingedeeld in één
van de categorieën 'eten', 'knagen (niet eten)', 'knuffelen', 'lopen/ vliegen',
'poetsen', 'roepen (stilzittend)', 'ruzie maken' en 'stilzitten'.
GEDRAGING | AANTAL | PERCENTAGE |
eten | 8 | 13 % |
knagen (niet eten) | 11 | 18 % |
knuffelen | 2 | 3 % |
lopen/ vliegen | 5 | 8 % |
poetsen | 8 | 13 % |
roepen (stilzittend) | 12 | 20 % |
ruzie maken | 3 | 5 % |
stilzitten | 11 | 18 % |
TOTAAL | 60 | 100 % |
Links boven in de tabel staat 'GEDRAGING', de naam van de variabele. Daaronder, in de linker kolom,
staan de namen van de verschillende categorieën, van 'eten' tot 'stilzitten'. In de
middelste kolom staat voor elke gedraging het aantal keren dat deze voorkwam. 'Eten' kwam
bijvoorbeeld 8 keer voor. In de rechter kolom staat het percentage dat deze gedraging voorkwam. Voor
'eten' 8 van de 60 keer, dus 13 %. In de onderste rij staan de totalen. Het totale aantal is 60
en het totale percentage is 100 %. Wanneer je alle percentages in de rechter kolom bij elkaar optelt,
kom je uit op 98, en niet precies op 100. Dat is omdat de percentages afgerond zijn naar hele getallen.
Met deze frequentie verdeling kun je in één oogopslag zien, hoe vaak elk van de gedragingen
geobserveerd werd.
Histogram
[Terug naar boven]
Een histogram is een afbeelding waarin de frequentie verdeling van een variabele samengevat
wordt. Een histogram kan alleen weergegeven worden voor variabelen die getallen als uitkomst
hebben. Als voorbeeld zie je hieronder een histogram van de temperatuur tijdens de 60 papegaai
observaties.
| Histogram TEMPERATUUR |
14 |
|
| 13 | 26 | |
Elk balkje in het histogram staat voor een aantal gegevens. Het aantal gegevens dat door het
hoogste balkje vertegenwoordigd wordt, 14 in dit geval, staat links boven in het histogram.
Onderaan, op de horizontale as, worden het minimum en maximum van de temperatuur schaal, 13 en 26,
weergegeven. De hoogte van elk balkje wordt bepaald door het aantal observaties waarbij de
temperatuur zich in de range van het balkje bevond. De temperatuur schaal is voor dit histogram
in 10 even grote stukken verdeeld. Het linker balkje bijvoorbeeld, geeft het aantal waarnemingen
tussen 13 en 14.3, het tweede balkje het aantal waarnemingen tussen 14.3 en 15.6, etc. Je ziet in
dit histogram in één oogopslag dat de extreme temperaturen wat minder vaak voorkwamen, terwijl
de temperaturen in het midden van de schaal over het algemeen vaker voorkwamen.
Kruistabel
[Terug naar boven]
Een kruistabel is een overzicht van twee variabelen, waarin je voor elke combinatie van
categorieën ziet, hoe vaak deze voorkomt. Gebruik een kruistabel alleen voor variabelen
met een beperkt aantal categorieën, omdat hij anders groot en onoverzichtelijk wordt.
In onderstaande kruistabel zie je het gedrag van de papegaai, in combinatie met het weer:
wel of niet zonnig.
| | ZONNIG |
| | ja | nee | TOTAAL |
GEDRAGING | eten | 3 | 5 | 8 |
knagen (niet eten) | 9 | 2 | 11 |
knuffelen | 2 | 0 | 2 |
lopen/ vliegen | 1 | 4 | 5 |
poetsen | 5 | 3 | 8 |
roepen (stilzittend) | 7 | 5 | 12 |
ruzie maken | 1 | 2 | 3 |
stilzitten | 4 | 7 | 11 |
TOTAAL | 32 | 28 | 60 |
In de linker kolom van bovenstaande tabel zie je de naam van de variabele die in de
rijen weergegeven wordt: GEDRAGING. Meteen rechts daarnaast de categorieën van deze
variabele, van 'eten' tot 'stilzitten'. In de bovenste rij staat de naam van de variabele
die in de kolommen weergegeven wordt: ZONNIG. Daaronder de categorieën, 'ja' en 'nee'.
Iedere cel van de tabel is een combinatie van de twee variabelen GEDRAGING en ZONNIG.
In iedere cel staat het aantal keren dat de combinatie voorkomt. De gedraging 'eten'
werd in totaal (rechter kolom) 8 keer geobserveerd: 3 keer bij zonnig weer en 5 keer
bij niet-zonnig weer.
Spreidingsplot
[Terug naar boven]
Met een spreidingsplot wordt de relatie tussen twee variabelen grafisch weergegeven. Elk gegeven
wordt in het plot getoond als een puntje. De plaats van het puntje is afhankelijk van de
waarde van het gegeven op twee variabelen. De waarde op de variabele die op de horizontale as
staat, bepaalt de horizontale positie van het puntje in het plot. De variabele op de verticale
as bepaalt de verticale positie. Wanneer meerdere gegevens (ongeveer) samenvallen, dan wordt
dit met een dikker puntje weergegeven. Een spreidingsplot kan alleen weergegeven worden voor
numerieke variabelen.
Spreidingsplot TEMPERATUUR * CONSUMPTIE |
17 |
| CONSUMPTIE | 4 |
| 13 | 26 |
| TEMPERATUUR |
|
In het spreidingsplot hierboven wordt de relatie tussen temperatuur (horizontale as) en
consumptie (verticale as) grafisch weergegeven. De puntenwolk in dit plot laat zien dat er een
negatief verband is tussen temperatuur en consumptie: hoe hoger de temperatuur, des te lager is
gemiddeld genomen de consumptie. Met een correlatie toets kan getoetst worden of dit lineaire
verband (het verband is lineair, want je kunt de puntenwolk met een rechte lijn samenvatten)
significant is.
Gemiddelde en standaarddeviatie
[Terug naar boven]
Het gemiddelde en de standaarddeviatie kunnen alleen berekend worden voor variabelen
die getallen als uitkomst hebben. Het gemiddelde wordt berekend als de optelsom van
alle getallen, gedeeld door het aantal getallen. De standaarddeviatie laat zien hoe sterk
de waarden van de variabele variëren: een hoge standaarddeviatie betekent dat de waarden
veel van elkaar verschillen.
VARIABELE | GEMIDDELDE | STD DEVIATIE | AANTAL |
WEEK | 4.8 | 2.5 | 60 |
ZONNIG | - | - | 0 |
TEMPERATUUR | 19.57 | 2.99 | 60 |
GEDRAGING | - | - | 0 |
CONSUMPTIE | 10.57 | 2.34 | 60 |
TOTAAL | | | 60 |
De variabelen 'ZONNIG' en 'GEDRAGING' hebben geen getallen als uitkomst. Ze hebben dus
ook geen gemiddelde en standaarddeviatie. WEEK is het nummer van de week waarin de
observaties gedaan werden. Het gemiddelde zegt niet zoveel: een gemiddelde heeft
alleen betekenis wanneer de getallen op een interpreteerbare schaal liggen. TEMPERATUUR
is de temperatuur in graden Celsius op het moment van de observatie. De temperatuur was
gemiddeld bijna 20 graden, met een standaarddeviatie van 2.99. CONSUMPTIE is de
hoeveelheid voedsel die de papegaai op de dag van de observatie at, in gram. Gemiddeld
ruim 10 gram, met een standaarddeviatie van 2.34.
Betrouwbaarheid percentage
[Terug naar boven]
Het betrouwbaarheids interval rond een percentage geeft aan, hoe zeker je kunt zijn van de
schatting van het percentage. Of met andere woorden: het betrouwbaarheidsinterval laat zien, hoe
nauwkeurig de schatting is. Op basis van statistische theorie (de binomiale verdeling) kan een
minimale waarde en een maximale waarde voor het percentage berekend worden, de ondergrens en de
bovengrens van het betrouwbaarheids interval. Je weet dan met een bepaalde zekerheid (meestal
wordt 95% gekozen) dat het 'ware' percentage in het betrouwbaarheidsinterval zit.
ZONNIG | PROCENT | ONDERGRENS 95% BI | BOVENGRENS 95% BI |
ja | 53 % | 40.1 % | 66.1 % |
nee | 47 % | 33.9 % | 59.9 % |
Bovenstaande tabel geeft het 95% betrouwbaarheidsinterval (95% BI) voor het percentage dagen dat
wel en niet zonnig was, gedurende de papegaai experimenten. 53% van de 60 dagen was zonnig. Aan
de hand daarvan kan met 95% zekerheid gesteld worden, dat tussen de 40.1% en de 66.1% van alle
dagen zonnig is. Het betrouwbaarheids interval mag alleen gegeneraliseerd worden naar
omstandigheden waarvoor de steekproef representatief is. Het weer is natuurlijk afhankelijk van
de plaats en van de tijd van het jaar. En misschien van andere tijdelijke factoren die tijdens
de experimenten speelden...
Ga naar 'Toetsende statistiek'
- - Home
- Contact - -
|