Test di ipotesi con la correlazione di Pearson
Testiamo il coefficiente di correlazione per determinare se la relazione lineare nei dati del campione modella effettivamente la relazione nella popolazione.
Obiettivi di apprendimento
Utilizzare un test di ipotesi per determinare la significatività del coefficiente di correlazione di Pearson.
Punti chiave
Punti chiave
- Il coefficiente di correlazione di Pearson, \testo{r}, ci dice la forza della relazione lineare tra i punti \testo{x} e \testo{y} su un grafico di regressione.
- Il test di ipotesi ci permette di decidere se il valore del coefficiente di correlazione della popolazione \rho è “vicino a 0” o “significativamente diverso da 0” in base al coefficiente di correlazione del campione \text{r} e alla dimensione del campione \text{n}.
- Se il test conclude che il coefficiente di correlazione è significativamente diverso da 0, diciamo che il coefficiente di correlazione è “significativo”.
- Se il test conclude che il coefficiente di correlazione non è significativamente diverso da 0 (è vicino a 0), diciamo che il coefficiente di correlazione è “non significativo”.
Termini chiave
- Coefficiente di correlazione di Pearson: una misura della correlazione lineare (dipendenza) tra due variabili \text{X} e \text{Y}, che dà un valore compreso tra +1 e -1, dove 1 è una correlazione positiva totale, 0 è nessuna correlazione, e -1 è una correlazione negativa
Testare la significatività del coefficiente di correlazione
Il coefficiente di correlazione di Pearson, \testo{r}, ci dice la forza della relazione lineare tra i punti \testo{x} e \testo{y} su un grafico di regressione. Tuttavia, l’affidabilità del modello lineare dipende anche da quanti punti di dati osservati ci sono nel campione. Dobbiamo guardare sia il valore del coefficiente di correlazione \text{r} che la dimensione del campione \text{n}, insieme. Eseguiamo un test di ipotesi sulla “significatività del coefficiente di correlazione” per decidere se la relazione lineare nei dati del campione è abbastanza forte da essere usata per modellare la relazione nella popolazione.
Il test di ipotesi ci permette di decidere se il valore del coefficiente di correlazione della popolazione \rho è “vicino a 0” o “significativamente diverso da 0”. Lo decidiamo in base al coefficiente di correlazione del campione \text{r} e alla dimensione del campione \text{n}.
Se il test conclude che il coefficiente di correlazione è significativamente diverso da 0, diciamo che il coefficiente di correlazione è “significativo”
Conclusione: “Ci sono prove sufficienti per concludere che c’è una relazione lineare significativa tra \testo{x} e \testo{y} perché il coefficiente di correlazione è significativamente diverso da 0.”
Cosa significa la conclusione: C’è una relazione lineare significativa tra \testo{x} e \testo{y}. Possiamo usare la linea di regressione per modellare la relazione lineare tra \testo{x} e \testo{y} nella popolazione.
Se il test conclude che il coefficiente di correlazione non è significativamente diverso da 0 (è vicino a 0), diciamo che il coefficiente di correlazione è “non significativo. “
Conclusione: “Non ci sono prove sufficienti per concludere che ci sia una relazione lineare significativa tra \testo{x} e \testo{y} perché il coefficiente di correlazione non è significativamente diverso da 0.”
Cosa significa la conclusione: Non c’è una relazione lineare significativa tra \testo{x} e \testo{y}. Quindi NON possiamo usare la linea di regressione per modellare una relazione lineare tra \testo{x} e \testo{y} nella popolazione.
Eseguire il test d’ipotesi
La nostra ipotesi nulla sarà che il coefficiente di correlazione NON è significativamente diverso da 0. Non c’è una significativa relazione lineare (correlazione) tra \testo{x} e \testo{y} nella popolazione. La nostra ipotesi alternativa sarà che il coefficiente di correlazione della popolazione è significativamente diverso da 0. C’è una significativa relazione lineare (correlazione) tra \testo{x} e \testo{y} nella popolazione.
Usare una tabella di valori critici per prendere una decisione
I valori critici al 95% della tabella dei coefficienti di correlazione del campione mostrata in ci dà una buona idea se il valore calcolato di \testo{r} è significativo o no. Confronta \testo{r} con il valore critico appropriato nella tabella. Se \testo{r} non è compreso tra i valori critici positivi e negativi, allora il coefficiente di correlazione è significativo. Se \testo{r} è significativo, allora possiamo usare la linea per la previsione.
95% Valori critici della tabella dei coefficienti di correlazione del campione: Questa tabella ci dà una buona idea se il valore calcolato di r è significativo o no.
Come esempio, supponiamo di aver calcolato \text{r}=0,801 usando \text{n}=10 punti dati. \testo{df} = \testo{n}-2 =10-2 = 8. I valori critici associati a \testo{df}=8 sono \pm 0,632. Se \testo{r} è minore del valore critico negativo o \testo{r} è maggiore del valore critico positivo, allora \testo{r} è significativo. Poiché \testo{r}=0,801 e 0,801 > 0,632, \testo{r} è significativo e la linea può essere usata per la predizione.
Assunzioni nel testare la significatività del coefficiente di correlazione
Testare la significatività del coefficiente di correlazione richiede che alcune assunzioni sui dati siano soddisfatte. La premessa di questo test è che i dati sono un campione di punti osservati presi da una popolazione più ampia. Non abbiamo esaminato l’intera popolazione perché non è possibile o fattibile farlo. Stiamo esaminando il campione per trarre una conclusione sul fatto che la relazione lineare che vediamo tra \testo{x} e \testo{y} nei dati del campione fornisce una prova abbastanza forte da permetterci di concludere che c’è una relazione lineare tra \testo{x} e \testo{y} nella popolazione.
Le ipotesi alla base del test di significatività sono:
- C’è una relazione lineare nella popolazione che modella il valore medio di \testo{y} per valori variabili di \testo{x}. In altre parole, il valore atteso di \testo{y} per ogni particolare valore si trova su una linea retta nella popolazione. (Non conosciamo l’equazione della linea per la popolazione. La nostra linea di regressione dal campione è la nostra migliore stima di questa linea nella popolazione. )
- I valori \testo{y} per ogni particolare valore \testo{x} sono normalmente distribuiti sulla linea. Questo implica che ci sono più valori \testo{y} sparsi vicino alla linea che più lontani. L’ipotesi uno di cui sopra implica che queste distribuzioni normali sono centrate sulla linea: le medie di queste distribuzioni normali dei valori di \testo{y} giacciono sulla linea.
- Le deviazioni standard dei valori di \testo{y} della popolazione intorno alla linea sono uguali per ogni valore di \testo{x}. In altre parole, ognuna di queste distribuzioni normali dei valori \testo{y} ha la stessa forma e diffusione sulla linea.
- Gli errori residui sono reciprocamente indipendenti (nessun modello).