header

Analyse - toetsende statistiek


Op deze pagina vind je meer informatie over een aantal toetsende statistieken. Elk van deze statistieken kun je op ethologie.nl online maken. De volgende statistieken komen aan bod:



* Chi kwadraat toets
* Correlatie toets
* Lineaire regressie analyse
* Logistische regressie analyse

> Maak Statistieken Online




Chi kwadraat toets
[Terug naar boven]

Met de chi kwadraat toets kan onderzocht worden of twee variabelen met elkaar samenhangen. Wanneer samenhang aangetoond wordt, kan met een kruistabel gekeken worden wat deze samenhang inhoudt. Een hoge chi kwadraat waarde betekent, dat er veel samenhang is tussen twee variabelen. Aan de hand van de 'chi kwadraat verdeling' wordt nagegaan of de toetswaarde groter is dan op basis van toeval verwacht zou worden. De hoogte van de chi kwadraat statistiek heeft geen betekenis op zichzelf. De statistiek moet geïnterpreteerd worden in het licht van het aantal vrijheidsgraden (afhankelijk van de hoeveelheid categorieën). De p-waarde geeft aan hoe onverwacht de combinatie van chi kwadraat waarde en aantal vrijheidsgraden is. Wanneer p kleiner is dan 0.05, wordt van een statistisch significant effect gesproken. De kans dat de geobserveerde waarden gevonden worden terwijl er geen verband tussen de variabelen bestaat, is dan kleiner dan 5 procent. Dus is het verband 'bewezen'.

GEDRAGING * ZONNIG
Chi kwadraat = 10.52
Vrijheidsgraden = 7
P > 0.10

Bovenstaande tabel is het resultaat van een chi kwadraat toets voor een verband tussen het weer (zonnig of niet zonnig) en het gedrag van een papegaai, zie ook kruistabel onder beschrijvende statistiek. Het resultaat waar het om gaat is de p-waarde, in de onderste rij. Deze is groter dan 0.10, dus zeker niet significant. De conclusie is daarom, dat met deze gegevens geen verband tussen het weer en het gedrag van de papegaai aangetoond kan worden.



Correlatie toets
[Terug naar boven]

De correlatie is een getal tussen -1 en 1, dat aangeeft hoe sterk het verband tussen twee variabelen is. Een correlatie van 0 betekent dat er geen verband is. Een positieve correlatie (groter dan 0), betekent dat hogere waarden op de ene variabele samen gaan met hogere waarden op de andere variabele. Een negatieve correlatie betekent dat hogere waarden op de ene variabele samen gaan met lagere waarden op de andere variabele. Hoe verder de correlatie van 0 af zit, hoe sterker het verband is. Op basis van toeval zal de correlatie altijd wel iets van 0 afwijken. Maar met de p-waarde wordt beoordeeld of het verband 'significant' is. Bij een p-waarde die kleiner is dan 0.05, is een verband statistisch significant.

Een correlatie kan alleen berekend worden voor variabelen die getallen als uitkomst hebben. De getallen moeten van interval meetniveau zijn, dat wil zeggen dat ze A) een volgorde hebben en dat B) de afstand tussen getallen dezelfde betekenis heeft op verschillende punten van de schaal. De variabele leeftijd is bijvoorbeeld van interval meetniveau: A) een hoger aantal jaren betekent dat de persoon in kwestie ouder is en B) het verschil tussen 5 jaar en 10 jaar is net zo groot als het verschil tussen 65 jaar en 70 jaar. De correlatie meet een lineair verband, dat betekent dat de relatie tussen de variabelen voor alle waarden van de variabelen hetzelfde moet zijn.

TEMPERATUUR * CONSUMPTIE
Correlatie = -0.36
P < 0.01
N = 60


In de tabel hierboven wordt de correlatie weergegeven tussen de temperatuur, en de hoeveelheid voer die de papegaai per dag at. De correlatie is -0.36. Een negatieve correlatie, dat wil zeggen dat de hoeveelheid voer lager was, naarmate de temperatuur hoger was. De correlatie is significant, p is niet alleen kleiner dan 0.05, maar zelfs kleiner dan 0.01. De conclusie is dus dat de consumptie van deze papegaai een verband vertoont met de temperatuur: hij eet meer als het kouder is, ofwel minder als het warmer is.



Lineaire regressie analyse
[Terug naar boven]

Met lineaire regressie analyse wordt onderzocht of er lineaire samenhang is tussen één afhankelijke variabele en een aantal onafhankelijke variabelen (voorspellers). Om dit te onderzoeken wordt wordt een formule berekend die de afhankelijke variabele zo goed mogelijk voorspelt op basis van de onafhankelijke variabelen. Wanneer (een aantal van) de voorspellende variabelen erin slagen om de uitkomstvariabele goed te voorspellen, beter dan op basis van toeval verwacht zou worden, dan is de conclusie dat er lineaire samenhang aanwezig is.

Resultaten lineaire regressie CONSUMPTIE

VoorspellerRegressiegewichtGestandaardiseerd
regressiegewicht
Significantie
(intercept)16.33 < 0.01
WEEK-0.06-0.06> 0.10
TEMPERATUUR-0.28-0.36< 0.01

verklaarde variantie = 13%


Hierboven worden de resultaten van een lineaire regressie analyse om 'consumptie' te voorspellen uit 'week' en 'temperatuur' weergegeven. De kolom regressiegewicht geeft de ongestandaardiseerde regressiegewichten. Deze vormen samen de geoptimaliseerde formule. Het intercept of de constante, is de schatting van consumptie wanneer week en temperatuur allebei 0 zijn. De constante heeft hier geen interpreteerbare betekenis, maar is wel onderdeel van de formule. Wanneer je week en temperatuur weet, maar consumptie onbekend is, dan kun je deze het beste voorspellen als:

CONSUMPTIE = 16.33 - 0.06*WEEK - 0.28*TEMPERATUUR

Het regressiegewicht van temperatuur, -0.28, betekent dat de verwachte consumptie met 0.28 afneemt wanneer de temperatuur 1 graad stijgt. Om te beoordelen welk regressiegewicht sterker bijdraagt aan de voorspelling van temperatuur, moet rekening gehouden worden met de standaarddeviatie van de variabelen. Het gestandaardiseerde regressiegewicht is gecorrigeerd voor de standaarddeviaties, en mag dus vergeleken worden tussen voorspellers: temperatuur (-0.36) voorspelt flink sterker dan week (-0.06).

De rechter kolom met significantie geeft weer of de variabelen beter voorspellen dan je op basis van toeval zou verwachten. Wanneer de kans kleiner dan 0.05 is, spreken we van een significant effect. De bijdrage van de variabele week is dus niet significant, op basis van toeval zou een dergelijk effect in meer dan 10% van de gevallen (p>0.10) gevonden worden. De conclusie is, dat er geen lineaire trend in de tijd aangetoond kan worden. De voorspelling op basis van temperatuur is wel significant: de kans is kleiner dan 1% (p<0.01) dat een dergelijk effect toevallig zou optreden. Conclusie: temperatuur en consumptie hangen lineair samen, hoe hoger de temperatuur, des te lager de consumptie. Het intercept is ook significant: dat betekent dat het verder van 0 af ligt dan je op basis van toeval zou verwachten. In dit geval is dat niet zo interessant.

De verklaarde variantie van 13% die onder de tabel genoemd wordt, geeft weer hoe goed de afhankelijke variabele volgens de formule voorspeld kan worden uit de gegevens. Het getal ligt tussen 0% (geen voorspelling) en 100% (perfecte voorspelling). Houd er wel rekening mee, dat de voorspelling geoptimaliseerd is voor de huidige gegevens. Wanneer er weinig gegevens zijn kan de formule sterker geoptimaliseerd worden, maar daardoor is hij minder goed van toepassing op nieuw te verzamelen gegevens. Met andere woorden: de generaliseerbaarheid van het model is minder, wanneer het op weinig gegevens gebaseerd is.



Logistische regressie analyse
[Terug naar boven]

Logistische regressie analyse wordt gebruikt om na te gaan of er samenhang is tussen één dichotome afhankelijke variabele en een aantal onafhankelijke variabelen, de voorspellers. Een dichotome variabele is een variabele die slechts twee verschillende waarden als uitkomst kan hebben, bijvoorbeeld "ja" of "nee". Evenals bij lineaire regressie analyse wordt een formule voor de voorspelling van de afhankelijke variabele geoptimaliseerd. Voorspellende variabelen die de afhankelijke variabele beter voorspellen dan je op basis van kans zou verwachten, hebben een statistisch significante bijdrage aan de voorspelling, en zijn dus van belang.

Resultaten logistische regressie ZONNIG

Referentie categorie: ja
VoorspellerRegressiegewichtOdds Ratio (OR)OR
ondergrens 95% BI
OR
bovengrens 95% BI
(intercept)17.013   
TEMPERATUUR-1.0260.3580.2140.601
CONSUMPTIE0.2741.3160.9081.908

Model -2logL: 35.5
aantal iteraties: 6


Bovenstaande tabel toont de uitkomsten van een logistische regressie analyse. De formule voor de voorspelling van de afhankelijke variabele (zonnig) wordt gevormd door de regressiegewichten in de tweede kolom. Maar de formule zit ingewikkelder in elkaar dan bij lineaire regressie analyse.

P(ZONNIG = nee) =
EXP(17.013 - 1.026*TEMPERATUUR + 0.274*CONSUMPTIE) /
(1 + EXP(17.013 - 1.026*TEMPERATUUR + 0.274*CONSUMPTIE) )

P(ZONNIG = nee) is de kans dat het niet zonnig is. Deze kans hangt af van een formule waarin de exponent van de regressieformule verwerkt is. De kans dat het wel zonnig is, is 100 procent minus de kans dat het niet zonnig is.

Boven de tabel staat de referentie categorie. De uitkomsten van het model zijn afgezet tegen deze referentie categorie. De referentie categorie is "ja", daarom is de uitkomst van de formule de kans op "nee". De Odds Ratio (de exponent van het regressiegewicht) is de verhouding van de odds bij een stijging van 1 op de onafhankelijke variabele. Een odds ratio kleiner dan 1 betekent dat de kans op de niet-referentiecategorie kleiner is bij een hogere waarde op de onafhankelijke variabele. Een odds ratio groter dan 1 betekent dat de kans op de niet-referentie categorie groter is bij een hogere waarde op de onafhankelijke variabele.

Het 95% betrouwbaarheids interval van de odds ratio omschrijft hoe precies de schatting van de odds ratio is. We weten 95% zeker dat de werkelijke odds ratio bij één graad temperatuurstijging tussen 0.214 en 0.601 ligt. Wanneer de waarde 1 niet in het betrouwbaarheidsinterval zit, dan is de bijdrage van de odds ratio significant. We weten dan 95% zeker dat de onafhankelijke variabele van invloed is op de afhankelijke variabele. In bovenstaande tabel is dus de bijdrage van temperatuur significant, maar de bijdrage van consumptie niet.

Deze resultaten illustreren wel dat causaliteit (wat is de oorzaak?) niet getoetst wordt met logistische regressie analyse. De temperatuur blijkt significant van invloed te zijn op of het zonnig is of niet. Maar in werkelijkheid is het verband andersom: wanneer het zonnig is, resulteert dit in een hogere temperatuur. Maar, logistische regressie en ook lineaire regressie helpt niet om een uitspraak te doen over de richting van het verband.

Ga naar 'Beschrijvende statistiek'


- - Home - Contact - -