Testowanie hipotez: Correlations | Boundless Statistics

Testy hipotez z korelacją Pearsona

Testujemy współczynnik korelacji, aby określić, czy zależność liniowa w danych z próby skutecznie modeluje zależność w populacji.

Cele nauczania

Użyj testu hipotezy w celu określenia istotności współczynnika korelacji Pearsona.

Key Takeaways

Key Points

Współczynnik korelacji Pearsona, \tekst{r}, mówi nam o sile liniowej zależności pomiędzy punktami \tekst{x} i \tekst{y} na wykresie regresji.
Test hipotezy pozwala nam zdecydować, czy wartość współczynnika korelacji populacji jest „bliska 0” lub „znacząco różna od 0” na podstawie współczynnika korelacji próbki \text{r} i wielkości próbki \text{n}.
Jeśli test stwierdza, że współczynnik korelacji jest znacząco różny od 0, mówimy, że współczynnik korelacji jest „znaczący”.
Jeśli test stwierdza, że współczynnik korelacji nie jest znacząco różny od 0 (jest bliski 0), mówimy, że współczynnik korelacji jest „nieistotny”.

Kluczowe pojęcia

Współczynnik korelacji Pearsona: miara korelacji liniowej (zależności) między dwiema zmiennymi \tekst{X} i \tekst{Y}, dająca wartość od +1 do -1 włącznie, gdzie 1 oznacza całkowitą korelację dodatnią, 0 – brak korelacji, a -1 to korelacja ujemna

Badanie istotności współczynnika korelacji

Współczynnik korelacji Pearsona, \tekst{r}, mówi nam o sile liniowej zależności między punktami \tekst{x} i \tekst{y} na wykresie regresji. Jednak wiarygodność modelu liniowego zależy również od tego, ile obserwowanych punktów danych znajduje się w próbie. Musimy spojrzeć zarówno na wartość współczynnika korelacji \text{r}, jak i na wielkość próby \text{n}, razem. Wykonujemy test hipotezy „istotności współczynnika korelacji”, aby zdecydować, czy zależność liniowa w danych z próbki jest wystarczająco silna, aby użyć jej do modelowania zależności w populacji.

Test hipotezy pozwala nam zdecydować, czy wartość współczynnika korelacji populacji jest „bliska 0” lub „znacząco różna od 0”. Decydujemy o tym na podstawie próbkowego współczynnika korelacji \tekst{r} i liczebności próby \tekst{n}.

Jeśli w wyniku testu stwierdzimy, że współczynnik korelacji jest istotnie różny od 0, mówimy, że współczynnik korelacji jest „istotny.”

Wniosek: „Istnieją wystarczające dowody, aby stwierdzić, że istnieje znacząca liniowa zależność między \tekst{x} a \tekst{y}, ponieważ współczynnik korelacji jest znacząco różny od 0.”

Co oznacza wniosek: Istnieje znacząca liniowa zależność między \tekst{x} a \tekst{y}. Możemy użyć linii regresji do modelowania liniowej zależności między \tekst{x} a \tekst{y} w populacji.

Jeśli w wyniku testu stwierdzimy, że współczynnik korelacji nie różni się istotnie od 0 (jest bliski 0), mówimy, że współczynnik korelacji jest „nieistotny. „

Wniosek: „Nie ma wystarczających dowodów, aby stwierdzić, że istnieje znacząca liniowa zależność między \tekst{x} a \tekst{y}, ponieważ współczynnik korelacji nie jest znacząco różny od 0.”

Co oznacza wniosek: Nie istnieje istotna zależność liniowa między \tekst{x} a \tekst{y}. Dlatego NIE możemy użyć linii regresji do modelowania liniowej zależności między tekstem{x} i tekstem{y} w populacji.

Przeprowadzenie testu hipotezy

Nasza hipoteza zerowa będzie taka, że współczynnik korelacji NIE JEST znacząco różny od 0. NIE MA znaczącej liniowej zależności (korelacji) między tekstem{x} i tekstem{y} w populacji. Naszą alternatywną hipotezą będzie, że współczynnik korelacji populacji JEST znacząco różny od 0. Istnieje znacząca liniowa zależność (korelacja) pomiędzy tekstem{x} i tekstem{y} w populacji.

Użycie tabeli wartości krytycznych do podjęcia decyzji

95% wartości krytycznych tabeli współczynnika korelacji próbki pokazanej w daje nam dobre wyobrażenie o tym, czy obliczona wartość tekst{r} jest znacząca czy nie. Porównaj wartość \tekst{r} z odpowiednią wartością krytyczną w tabeli. Jeśli \tekst{r} nie znajduje się pomiędzy dodatnimi i ujemnymi wartościami krytycznymi, to współczynnik korelacji jest znaczący. Jeśli ˆtext{r} jest znaczący, to możemy użyć linii do predykcji.

95% Wartości krytyczne tabeli przykładowego współczynnika korelacji: Ta tabela daje nam dobre wyobrażenie o tym, czy obliczona wartość r jest znacząca, czy nie.

Jako przykład, załóżmy, że obliczyłeś \tekst{r}=0,801 używając \tekst{n}=10 punktów danych. \text{df} = \text{n}-2 =10-2 = 8. Wartości krytyczne związane z \text{df}=8 wynoszą \pm 0,632. Jeśli \tekst{r} jest mniejszy niż ujemna wartość krytyczna lub \tekst{r} jest większy niż dodatnia wartość krytyczna, to \tekst{r} jest znaczący. Ponieważ \tekst{r}=0,801 i 0,801 > 0,632, \tekst{r} jest znaczący i linia może być użyta do predykcji.

Założenia w testowaniu istotności współczynnika korelacji

Testowanie istotności współczynnika korelacji wymaga spełnienia pewnych założeń dotyczących danych. Założeniem tego testu jest to, że dane są próbą obserwowanych punktów pobranych z większej populacji. Nie zbadaliśmy całej populacji, ponieważ nie jest to możliwe lub wykonalne. Badamy próbkę, aby wyciągnąć wniosek, czy liniowa zależność, którą widzimy między tekstem{x} a tekstem{y} w danych z próbki, dostarcza wystarczająco mocnych dowodów, abyśmy mogli stwierdzić, że istnieje liniowa zależność między tekstem{x} a tekstem{y} w populacji.

Założenia leżące u podstaw testu istotności są następujące:

W populacji istnieje liniowa zależność, która modeluje średnią wartość tekstu{y} dla różnych wartości tekstu{x}. Innymi słowy, oczekiwana wartość \tekst{y} dla każdej konkretnej wartości leży w populacji na linii prostej. (Nie znamy równania linii dla populacji. Nasza linia regresji z próbki jest naszym najlepszym oszacowaniem tej linii w populacji. )
Wartości \tekst{y} dla każdej konkretnej wartości \tekst{x} są normalnie rozłożone wokół linii. Oznacza to, że jest więcej wartości text{y} rozproszonych bliżej linii niż dalej. Z pierwszego założenia wynika, że te rozkłady normalne są skupione na linii: średnie tych rozkładów normalnych wartości \tekst{y} leżą na linii.
Odchylenia standardowe wartości \tekst{y} populacji wokół linii są równe dla każdej wartości \tekst{x}. Innymi słowy, każdy z tych rozkładów normalnych wartości \tekst{y} ma taki sam kształt i rozrzut względem prostej.
Błędy resztowe są wzajemnie niezależne (brak wzorca).

Heading

Boundless Statistics