Hypothesentests mit der Pearson-Korrelation
Wir testen den Korrelationskoeffizienten, um festzustellen, ob die lineare Beziehung in den Stichprobendaten die Beziehung in der Grundgesamtheit tatsächlich modelliert.
Lernziele
Um die Signifikanz des Pearson-Korrelationskoeffizienten zu bestimmen, verwenden Sie einen Hypothesentest.
Key Takeaways
Key Points
- Der Korrelationskoeffizient von Pearson, \text{r}, gibt Auskunft über die Stärke der linearen Beziehung zwischen \text{x} und \text{y} Punkten in einem Regressionsdiagramm.
- Der Hypothesentest lässt uns entscheiden, ob der Wert des Populationskorrelationskoeffizienten \rho „nahe bei 0“ oder „signifikant verschieden von 0“ ist, basierend auf dem Stichprobenkorrelationskoeffizienten \text{r} und dem Stichprobenumfang \text{n}.
- Wenn der Test zu dem Schluss kommt, dass der Korrelationskoeffizient signifikant von 0 verschieden ist, sagen wir, dass der Korrelationskoeffizient „signifikant“ ist.
- Wenn der Test zu dem Schluss kommt, dass der Korrelationskoeffizient nicht signifikant von 0 verschieden ist (er liegt nahe bei 0), sagen wir, dass der Korrelationskoeffizient „nicht signifikant“ ist.
Schlüsselbegriffe
- Pearsonscher Korrelationskoeffizient: Ein Maß für die lineare Korrelation (Abhängigkeit) zwischen zwei Variablen \text{X} und \text{Y}, das einen Wert zwischen +1 und -1 einschließlich angibt, wobei 1 für eine vollständig positive Korrelation steht, 0 für keine Korrelation, und -1 eine negative Korrelation ist
Testen der Signifikanz des Korrelationskoeffizienten
Der Korrelationskoeffizient nach Pearson, \text{r}, gibt Auskunft über die Stärke der linearen Beziehung zwischen \text{x} und \text{y} Punkten auf einem Regressionsdiagramm. Die Zuverlässigkeit des linearen Modells hängt jedoch auch davon ab, wie viele beobachtete Datenpunkte sich in der Stichprobe befinden. Wir müssen sowohl den Wert des Korrelationskoeffizienten \text{r} als auch den Stichprobenumfang \text{n} zusammen betrachten. Wir führen einen Hypothesentest der „Signifikanz des Korrelationskoeffizienten“ durch, um zu entscheiden, ob die lineare Beziehung in den Stichprobendaten stark genug ist, um sie zur Modellierung der Beziehung in der Population zu verwenden.
Der Hypothesentest lässt uns entscheiden, ob der Wert des Populationskorrelationskoeffizienten \rho „nahe 0“ oder „signifikant verschieden von 0“ ist. Wir entscheiden dies anhand des Stichprobenkorrelationskoeffizienten \text{r} und des Stichprobenumfangs \text{n}.
Wenn der Test zu dem Schluss kommt, dass der Korrelationskoeffizient signifikant von 0 verschieden ist, sagen wir, dass der Korrelationskoeffizient „signifikant“ ist.“
Schlussfolgerung: „Es gibt genügend Beweise, um zu schließen, dass es eine signifikante lineare Beziehung zwischen \text{x} und \text{y} gibt, weil der Korrelationskoeffizient signifikant von 0 verschieden ist.“
Was die Schlussfolgerung bedeutet: Es besteht eine signifikante lineare Beziehung zwischen \text{x} und \text{y}. Wir können die Regressionsgerade verwenden, um die lineare Beziehung zwischen \text{x} und \text{y} in der Population zu modellieren.
Wenn der Test zu dem Ergebnis kommt, dass der Korrelationskoeffizient nicht signifikant von 0 verschieden ist (er liegt nahe bei 0), sagen wir, dass der Korrelationskoeffizient „nicht signifikant“ ist. „
Schlussfolgerung: „Es gibt nicht genügend Beweise, um zu schließen, dass es eine signifikante lineare Beziehung zwischen \text{x} und \text{y} gibt, weil der Korrelationskoeffizient nicht signifikant von 0 verschieden ist.“
Was die Schlussfolgerung bedeutet: Es gibt keine signifikante lineare Beziehung zwischen \text{x} und \text{y}. Daher können wir die Regressionslinie NICHT verwenden, um eine lineare Beziehung zwischen \text{x} und \text{y} in der Population zu modellieren.
Durchführen des Hypothesentests
Unsere Nullhypothese wird sein, dass der Korrelationskoeffizient NICHT signifikant von 0 verschieden ist. Es gibt KEINE signifikante lineare Beziehung (Korrelation) zwischen \text{x} und \text{y} in der Population. Unsere Alternativhypothese lautet, dass der Korrelationskoeffizient der Population signifikant von 0 abweicht. Es besteht eine signifikante lineare Beziehung (Korrelation) zwischen \text{x} und \text{y} in der Population.
Verwendung einer Tabelle mit kritischen Werten, um eine Entscheidung zu treffen
Die kritischen 95%-Werte der in der Tabelle gezeigten Stichprobenkorrelationskoeffizienten geben uns eine gute Vorstellung davon, ob der berechnete Wert von \text{r} signifikant ist oder nicht. Vergleichen Sie \text{r} mit dem entsprechenden kritischen Wert in der Tabelle. Wenn \text{r} nicht zwischen dem positiven und dem negativen kritischen Wert liegt, dann ist der Korrelationskoeffizient signifikant. Wenn \text{r} signifikant ist, dann können wir die Linie für die Vorhersage verwenden.
95% kritische Werte der Tabelle mit den Korrelationskoeffizienten der Stichprobe: Diese Tabelle gibt uns eine gute Vorstellung davon, ob der berechnete Wert von r signifikant ist oder nicht.
Als Beispiel nehmen wir an, dass Sie \text{r}=0,801 mit \text{n}=10 Datenpunkten berechnet haben. \text{df} = \text{n}-2 =10-2 = 8. Die mit \text{df}=8 verbundenen kritischen Werte sind \pm 0,632. Wenn \text{r} kleiner als der negative kritische Wert ist oder \text{r} größer als der positive kritische Wert ist, dann ist \text{r} signifikant. Da \text{r}=0,801 und 0,801 > 0,632 ist, ist \text{r} signifikant und die Linie kann zur Vorhersage verwendet werden.
Annahmen beim Testen der Signifikanz des Korrelationskoeffizienten
Das Testen der Signifikanz des Korrelationskoeffizienten erfordert, dass bestimmte Annahmen über die Daten erfüllt sind. Die Prämisse dieses Tests ist, dass die Daten eine Stichprobe von beobachteten Punkten sind, die aus einer größeren Grundgesamtheit entnommen wurden. Wir haben nicht die gesamte Grundgesamtheit untersucht, weil es nicht möglich oder sinnvoll ist, dies zu tun. Wir untersuchen die Stichprobe, um eine Schlussfolgerung darüber zu ziehen, ob die lineare Beziehung, die wir zwischen \text{x} und \text{y} in den Stichprobendaten sehen, stark genug ist, so dass wir auf eine lineare Beziehung zwischen \text{x} und \text{y} in der Population schließen können.
Die Annahmen, die dem Signifikanztest zugrunde liegen, sind:
- Es gibt eine lineare Beziehung in der Population, die den Durchschnittswert von \text{y} für verschiedene Werte von \text{x} modelliert. Mit anderen Worten: Der erwartete Wert von \text{y} für jeden bestimmten Wert liegt in der Population auf einer Geraden. (Wir kennen die Gleichung für die Gerade für die Population nicht. Unsere Regressionsgerade aus der Stichprobe ist unsere beste Schätzung dieser Geraden in der Grundgesamtheit. )
- Die \text{y}-Werte für einen bestimmten \text{x}-Wert sind normal um die Linie verteilt. Dies impliziert, dass es mehr \text{y}-Werte gibt, die näher an der Linie verstreut sind, als solche, die weiter entfernt sind. Annahme eins oben impliziert, dass diese Normalverteilungen auf der Linie zentriert sind: Die Mittelwerte dieser Normalverteilungen der \text{y}-Werte liegen auf der Linie.
- Die Standardabweichungen der \text{y}-Werte der Population um die Linie sind für jeden Wert von \text{x} gleich. Mit anderen Worten, jede dieser Normalverteilungen von \text{y}-Werten hat die gleiche Form und Streuung um die Linie.
- Die Restfehler sind voneinander unabhängig (kein Muster).