Analyse - toetsende statistiek
Op deze pagina vind je meer informatie over een aantal toetsende statistieken. Elk van deze
statistieken kun je op ethologie.nl online maken. De volgende statistieken komen aan bod:
Chi kwadraat toets
[Terug naar boven]
Met de chi kwadraat toets kan onderzocht worden of twee variabelen met elkaar samenhangen.
Wanneer samenhang aangetoond wordt, kan met een kruistabel gekeken worden wat deze samenhang inhoudt.
Een hoge chi kwadraat waarde betekent, dat er veel samenhang is tussen twee variabelen. Aan
de hand van de 'chi kwadraat verdeling' wordt nagegaan of de toetswaarde groter is dan op
basis van toeval verwacht zou worden. De hoogte van de chi kwadraat statistiek heeft geen
betekenis op zichzelf. De statistiek moet geïnterpreteerd worden in het licht van het aantal
vrijheidsgraden (afhankelijk van de hoeveelheid categorieën). De p-waarde geeft aan hoe
onverwacht de combinatie van chi kwadraat waarde en aantal vrijheidsgraden is.
Wanneer p kleiner is dan 0.05, wordt van een statistisch significant effect gesproken. De kans
dat de geobserveerde waarden gevonden worden terwijl er geen verband tussen de
variabelen bestaat, is dan kleiner dan 5 procent. Dus is het verband 'bewezen'.
GEDRAGING * ZONNIG |
Chi kwadraat = 10.52 | Vrijheidsgraden = 7 |
P > 0.10 |
Bovenstaande tabel is het resultaat van een chi kwadraat toets voor een verband tussen het weer
(zonnig of niet zonnig) en het gedrag van een papegaai, zie ook kruistabel onder beschrijvende
statistiek. Het resultaat waar het om gaat is de p-waarde, in de onderste rij. Deze is groter dan
0.10, dus zeker niet significant. De conclusie is daarom, dat met deze gegevens geen verband tussen
het weer en het gedrag van de papegaai aangetoond kan worden.
Correlatie toets
[Terug naar boven]
De correlatie is een getal tussen -1 en 1, dat aangeeft hoe sterk het verband tussen twee
variabelen is. Een correlatie van 0 betekent dat er geen verband is. Een positieve correlatie
(groter dan 0), betekent dat hogere waarden op de ene variabele samen gaan met hogere waarden op
de andere variabele. Een negatieve correlatie betekent dat hogere waarden op de ene variabele
samen gaan met lagere waarden op de andere variabele. Hoe verder de correlatie van 0 af zit, hoe
sterker het verband is. Op basis van toeval zal de correlatie altijd wel iets van 0 afwijken.
Maar met de p-waarde wordt beoordeeld of het verband 'significant' is. Bij een p-waarde die
kleiner is dan 0.05, is een verband statistisch significant.
Een correlatie kan alleen berekend worden voor variabelen die getallen als uitkomst
hebben. De getallen moeten van interval meetniveau zijn, dat wil zeggen dat ze A) een volgorde
hebben en dat B) de afstand tussen getallen dezelfde betekenis heeft op verschillende punten van
de schaal. De variabele leeftijd is bijvoorbeeld van interval meetniveau: A) een hoger aantal jaren
betekent dat de persoon in kwestie ouder is en B) het verschil tussen 5 jaar en 10 jaar is net
zo groot als het verschil tussen 65 jaar en 70 jaar. De correlatie meet een lineair verband,
dat betekent dat de relatie tussen de variabelen voor alle waarden van de variabelen hetzelfde
moet zijn.
TEMPERATUUR * CONSUMPTIE |
Correlatie = -0.36 | P < 0.01 | N = 60 |
In de tabel hierboven wordt de correlatie weergegeven tussen de temperatuur, en de hoeveelheid
voer die de papegaai per dag at. De correlatie is -0.36. Een negatieve correlatie, dat wil
zeggen dat de hoeveelheid voer lager was, naarmate de temperatuur hoger was. De correlatie is
significant, p is niet alleen kleiner dan 0.05, maar zelfs kleiner dan 0.01. De conclusie is dus
dat de consumptie van deze papegaai een verband vertoont met de temperatuur: hij eet meer als
het kouder is, ofwel minder als het warmer is.
Lineaire regressie analyse
[Terug naar boven]
Met lineaire regressie analyse wordt onderzocht of er lineaire samenhang is tussen één
afhankelijke variabele en een aantal onafhankelijke variabelen (voorspellers). Om dit te
onderzoeken wordt wordt een formule berekend die de afhankelijke variabele zo goed mogelijk
voorspelt op basis van de onafhankelijke variabelen. Wanneer (een aantal van) de voorspellende
variabelen erin slagen om de uitkomstvariabele goed te voorspellen, beter dan op basis van
toeval verwacht zou worden, dan is de conclusie dat er lineaire samenhang aanwezig is.
Resultaten lineaire regressie CONSUMPTIE
Voorspeller | Regressiegewicht | Gestandaardiseerd regressiegewicht | Significantie |
(intercept) | 16.33 | | < 0.01 |
WEEK | -0.06 | -0.06 | > 0.10 |
TEMPERATUUR | -0.28 | -0.36 | < 0.01 |
verklaarde variantie = 13%
Hierboven worden de resultaten van een lineaire regressie analyse om 'consumptie' te voorspellen
uit 'week' en 'temperatuur' weergegeven. De kolom regressiegewicht geeft de
ongestandaardiseerde regressiegewichten. Deze vormen samen de geoptimaliseerde formule. Het
intercept of de constante, is de schatting van consumptie wanneer week en temperatuur allebei 0
zijn. De constante heeft hier geen interpreteerbare betekenis, maar is wel onderdeel van de
formule. Wanneer je week en temperatuur weet, maar consumptie onbekend is, dan kun je deze het
beste voorspellen als:
CONSUMPTIE = 16.33 - 0.06*WEEK - 0.28*TEMPERATUUR
Het regressiegewicht van temperatuur, -0.28, betekent dat de verwachte consumptie met 0.28
afneemt wanneer de temperatuur 1 graad stijgt. Om te beoordelen welk regressiegewicht sterker
bijdraagt aan de voorspelling van temperatuur, moet rekening gehouden worden met de
standaarddeviatie van de variabelen. Het gestandaardiseerde regressiegewicht is gecorrigeerd
voor de standaarddeviaties, en mag dus vergeleken worden tussen voorspellers: temperatuur
(-0.36) voorspelt flink sterker dan week (-0.06).
De rechter kolom met significantie geeft weer of de variabelen beter voorspellen dan
je op basis van toeval zou verwachten. Wanneer de kans kleiner dan 0.05 is, spreken we
van een significant effect. De bijdrage van de variabele week is dus niet significant, op basis
van toeval zou een dergelijk effect in meer dan 10% van de gevallen (p>0.10) gevonden worden.
De conclusie is, dat er geen lineaire trend in de tijd aangetoond kan worden.
De voorspelling op basis van temperatuur is wel significant: de kans is kleiner dan 1% (p<0.01)
dat een dergelijk effect toevallig zou optreden. Conclusie: temperatuur en consumptie hangen
lineair samen, hoe hoger de temperatuur, des te lager de consumptie. Het intercept is ook
significant: dat betekent dat het verder van 0 af ligt dan je op basis van toeval zou
verwachten. In dit geval is dat niet zo interessant.
De verklaarde variantie van 13%
die onder de tabel genoemd wordt, geeft weer hoe goed de afhankelijke variabele volgens de
formule voorspeld kan worden uit de gegevens. Het getal ligt tussen 0% (geen voorspelling) en
100% (perfecte voorspelling). Houd er wel rekening mee, dat de voorspelling geoptimaliseerd is
voor de huidige gegevens. Wanneer er weinig gegevens zijn kan de formule sterker geoptimaliseerd
worden, maar daardoor is hij minder goed van toepassing op nieuw te verzamelen gegevens. Met
andere woorden: de generaliseerbaarheid van het model is minder, wanneer het op weinig gegevens
gebaseerd is.
Logistische regressie analyse
[Terug naar boven]
Logistische regressie analyse wordt gebruikt om na te gaan of er samenhang is tussen één
dichotome afhankelijke variabele en een aantal onafhankelijke variabelen, de voorspellers. Een
dichotome variabele is een variabele die slechts twee verschillende waarden als uitkomst kan
hebben, bijvoorbeeld "ja" of "nee". Evenals bij lineaire regressie analyse wordt een formule voor
de voorspelling van de afhankelijke variabele geoptimaliseerd. Voorspellende variabelen die de
afhankelijke variabele beter voorspellen dan je op basis van kans zou verwachten, hebben een
statistisch significante bijdrage aan de voorspelling, en zijn dus van belang.
Resultaten logistische regressie ZONNIG
Referentie categorie: ja
Voorspeller | Regressiegewicht | Odds Ratio (OR) | OR ondergrens 95% BI | OR bovengrens 95% BI |
(intercept) | 17.013 | | | |
TEMPERATUUR | -1.026 | 0.358 | 0.214 | 0.601 |
CONSUMPTIE | 0.274 | 1.316 | 0.908 | 1.908 |
Model -2logL: 35.5 aantal iteraties: 6
Bovenstaande tabel toont de uitkomsten van een logistische regressie analyse. De formule voor
de voorspelling van de afhankelijke variabele (zonnig) wordt gevormd door de regressiegewichten
in de tweede kolom. Maar de formule zit ingewikkelder in elkaar dan bij lineaire regressie
analyse.
P(ZONNIG = nee) =EXP(17.013 - 1.026*TEMPERATUUR + 0.274*CONSUMPTIE) /
(1 + EXP(17.013 - 1.026*TEMPERATUUR + 0.274*CONSUMPTIE) )
P(ZONNIG = nee) is de kans dat het niet zonnig is. Deze kans hangt af van een formule waarin
de exponent van de regressieformule verwerkt is. De kans dat het wel zonnig is, is 100 procent
minus de kans dat het niet zonnig is.
Boven de tabel staat de referentie categorie. De uitkomsten van het model zijn afgezet tegen
deze referentie categorie. De referentie categorie is "ja", daarom is de uitkomst van de formule
de kans op "nee". De Odds Ratio (de exponent van het regressiegewicht) is de verhouding van de
odds bij een stijging van 1 op de onafhankelijke variabele. Een odds ratio kleiner dan 1
betekent dat de kans op de niet-referentiecategorie kleiner is bij een hogere waarde op de
onafhankelijke variabele. Een odds ratio groter dan 1 betekent dat de kans op de niet-referentie
categorie groter is bij een hogere waarde op de onafhankelijke variabele.
Het 95% betrouwbaarheids interval van de odds ratio omschrijft hoe precies de schatting van de
odds ratio is. We weten 95% zeker dat de werkelijke odds ratio bij één graad temperatuurstijging
tussen 0.214 en 0.601 ligt. Wanneer de waarde 1 niet in het betrouwbaarheidsinterval zit, dan
is de bijdrage van de odds ratio significant. We weten dan 95% zeker dat de onafhankelijke
variabele van invloed is op de afhankelijke variabele. In bovenstaande tabel is dus de bijdrage
van temperatuur significant, maar de bijdrage van consumptie niet.
Deze resultaten illustreren wel dat causaliteit (wat is de oorzaak?) niet getoetst wordt met
logistische regressie analyse. De temperatuur blijkt significant van invloed te zijn op of het
zonnig is of niet. Maar in werkelijkheid is het verband andersom: wanneer het zonnig is,
resulteert dit in een hogere temperatuur. Maar, logistische regressie en ook lineaire regressie
helpt niet om een uitspraak te doen over de richting van het verband.
Ga naar 'Beschrijvende statistiek'
- - Home
- Contact - -
|