Hypothesetests met de Pearson-correlatie

We testen de correlatiecoëfficiënt om te bepalen of de lineaire relatie in de steekproefgegevens effectief de relatie in de populatie modelleert.

Leerdoelen

Gebruik een hypothesetest om de significantie van Pearson’s correlatiecoëfficiënt vast te stellen.

Key Takeaways

Key Points

  • De correlatiecoëfficiënt van Pearson, \text{r}, vertelt ons iets over de sterkte van het lineaire verband tussen \text{x} en \text{y} punten op een regressieplot.
  • De hypothesetoets laat ons beslissen of de waarde van de correlatiecoëfficiënt van de populatie \rho “dicht bij 0” ligt of “significant verschilt van 0” op basis van de correlatiecoëfficiënt van de steekproef \text{r} en de steekproefgrootte \text{n}.
  • Als de test concludeert dat de correlatiecoëfficiënt significant verschillend is van 0, zeggen we dat de correlatiecoëfficiënt “significant” is.
  • Als de test concludeert dat de correlatiecoëfficiënt niet significant verschillend is van 0 (hij ligt dicht bij 0), zeggen we dat de correlatiecoëfficiënt “niet significant” is.

Key Terms

  • Pearson’s correlatiecoëfficiënt: een maat voor de lineaire correlatie (afhankelijkheid) tussen twee variabelen \text{X} en \text{Y}, die een waarde geeft tussen +1 en -1 inclusief, waarbij 1 een totale positieve correlatie is, 0 geen correlatie, en -1 is negatieve correlatie

Test de significantie van de correlatiecoëfficiënt

Pearson’s correlatiecoëfficiënt, \text{r}, zegt ons iets over de sterkte van het lineaire verband tussen de punten \text{x} en \text{y} op een regressieplot. De betrouwbaarheid van het lineaire model hangt echter ook af van het aantal waargenomen datapunten in de steekproef. We moeten zowel naar de waarde van de correlatiecoëfficiënt \text{r} als naar de steekproefgrootte \text{n} kijken, samen. We voeren een hypothesetest van de “significantie van de correlatiecoëfficiënt” uit om te beslissen of het lineaire verband in de steekproefgegevens sterk genoeg is om te gebruiken om het verband in de populatie te modelleren.

De hypothesetest laat ons beslissen of de waarde van de correlatiecoëfficiënt van de populatie \rho “dicht bij 0” ligt of “significant verschillend van 0” is. We beslissen dit op basis van de steekproefcorrelatiecoëfficiënt \text{r} en de steekproefgrootte \text{n}.

Als de test concludeert dat de correlatiecoëfficiënt significant verschillend is van 0, zeggen we dat de correlatiecoëfficiënt “significant” is.”

Conclusie: “Er is voldoende bewijs om te concluderen dat er een significant lineair verband is tussen \text{x} en \text{y} omdat de correlatiecoëfficiënt significant verschillend is van 0.”

Wat de conclusie betekent: Er is een significant lineair verband tussen \text{x} en \text{y}. We kunnen de regressielijn gebruiken om het lineaire verband tussen \text{x} en \text{y} in de populatie te modelleren.

Als de test concludeert dat de correlatiecoëfficiënt niet significant verschilt van 0 (het ligt dicht bij 0), zeggen we dat de correlatiecoëfficiënt “niet significant” is. “

Conclusie: “Er is onvoldoende bewijs om te concluderen dat er een significant lineair verband is tussen \text{x} en \text{y} omdat de correlatiecoëfficiënt niet significant verschillend is van 0.”

Wat de conclusie betekent: Er is geen significant lineair verband tussen \text{x} en \text{y}. Daarom kunnen we de regressielijn NIET gebruiken om een lineair verband tussen \text{x} en \text{y} in de populatie te modelleren.

Uitvoeren van de hypothesetest

Onze nulhypothese zal zijn dat de correlatiecoëfficiënt NIET significant verschillend IS van 0. Er IS GEEN significant lineair verband (correlatie) tussen \text{x} en \text{y} in de populatie. Onze alternatieve hypothese is dat de correlatiecoëfficiënt in de populatie significant verschillend is van 0. Er is een significant lineair verband (correlatie) tussen \text{x} en \text{y} in de populatie.

Een tabel met kritische waarden gebruiken om een beslissing te nemen

De 95% kritische waarden van de tabel met de steekproefcorrelatiecoëfficiënt in geeft ons een goed idee of de berekende waarde van \text{r} significant is of niet. Vergelijk \text{r} met de juiste kritische waarde in de tabel. Als \text{r} niet tussen de positieve en negatieve kritische waarden ligt, dan is de correlatiecoëfficiënt significant. Als \text{r} significant is, dan kunnen we de lijn gebruiken voor een voorspelling.

image

95% kritieke waarden van de steekproef Correlatiecoëfficiënt Tabel: Deze tabel geeft ons een goed idee of de berekende waarde van r significant is of niet.

Als voorbeeld: stel dat u \text{r}=0,801 hebt berekend met \text{n}=10 datapunten. \text{df} = \text{n}-2 =10-2 = 8. De kritische waarden die horen bij \text{df}=8 zijn 0,632. Als \text{r} kleiner is dan de negatieve kritische waarde of als \text{r} groter is dan de positieve kritische waarde, dan is \text{r} significant. Aangezien \text{r}=0,801 en 0,801 > 0,632, is \text{r} significant en kan de lijn voor een voorspelling worden gebruikt.

Aannames bij het testen van de significantie van de correlatiecoëfficiënt

Het testen van de significantie van de correlatiecoëfficiënt vereist dat aan bepaalde aannames over de gegevens wordt voldaan. De vooronderstelling van deze test is dat de gegevens een steekproef zijn van waargenomen punten uit een grotere populatie. Wij hebben niet de gehele populatie onderzocht omdat dit niet mogelijk of haalbaar is. We onderzoeken de steekproef om een conclusie te trekken over de vraag of het lineaire verband dat we zien tussen \text{x} en \text{y} in de steekproefgegevens sterk genoeg bewijs levert zodat we kunnen concluderen dat er een lineair verband is tussen \text{x} en \text{y} in de populatie.

De veronderstellingen die ten grondslag liggen aan de significantietest zijn:

  • Er is een lineair verband in de populatie dat de gemiddelde waarde van \text{y} modelleert voor variërende waarden van \text{x}. Met andere woorden, de verwachte waarde van \text{y} voor elke bepaalde waarde ligt op een rechte lijn in de populatie. (We kennen de vergelijking van de rechte voor de populatie niet. Onze regressielijn uit de steekproef is onze beste schatting van deze lijn in de populatie.
  • De \text{y}-waarden voor een bepaalde \text{x}-waarde zijn normaal verdeeld over de lijn. Dit betekent dat er meer waarden dichter bij de lijn liggen dan verder weg. Veronderstelling 1 impliceert dat deze normale verdelingen gecentreerd zijn op de lijn: de gemiddelden van deze normale verdelingen van de \text{y} waarden liggen op de lijn.
  • De standaardafwijkingen van de populatie \text{y} waarden rond de lijn zijn gelijk voor elke waarde van \text{x}. Met andere woorden, elk van deze normale verdelingen van de \text{y}-waarden heeft dezelfde vorm en spreiding over de lijn.
  • De restfouten zijn onderling onafhankelijk (geen patroon).

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *