Testes de Hipótese com a Correlação de Pearson
Testamos o coeficiente de correlação para determinar se a relação linear nos dados da amostra modela eficazmente a relação na população.
Objectivos de aprendizagem
Utilizar um teste de hipóteses para determinar o significado do coeficiente de correlação de Pearson.
Key Takeaways
Key Points
- Coeficiente de correlação de Pearson, {r}, fala-nos da força da relação linear entre os pontos \i1}texto{x} e \i}texto{y} num gráfico de regressão.
- O teste de hipóteses permite-nos decidir se o valor do coeficiente de correlação da população \rho é “próximo de 0” ou “significativamente diferente de 0”, com base no coeficiente de correlação da amostra \r{r} e no tamanho da amostra \r{n}.
- Se o teste concluir que o coeficiente de correlação é significativamente diferente de 0, dizemos que o coeficiente de correlação é “significativo”.
- Se o teste concluir que o coeficiente de correlação não é significativamente diferente de 0 (está próximo de 0), dizemos que o coeficiente de correlação é “não significativo”.
Key Terms
- Coeficiente de correlação de Pearson: uma medida da correlação linear (dependência) entre duas variáveis \texto{X} e \texto{Y}, dando um valor entre +1 e -1 inclusive, em que 1 é a correlação positiva total, 0 não é correlação, e -1 é a correlação negativa
Testar a significância do Coeficiente de Correlação
O coeficiente de correlação de Pearson, {r}, fala-nos da força da relação linear entre os pontos {x} e {y} de texto num gráfico de regressão. No entanto, a fiabilidade do modelo linear depende também do número de pontos de dados observados na amostra. Temos de olhar tanto para o valor do coeficiente de correlação {r} como para o tamanho da amostra {n}, em conjunto. Realizamos um teste de hipóteses do “significado do coeficiente de correlação” para decidir se a relação linear nos dados da amostra é suficientemente forte para ser usada para modelar a relação na população.
O teste de hipóteses permite-nos decidir se o valor do coeficiente de correlação da população \rho é “próximo de 0” ou “significativamente diferente de 0”. Decidimos isto com base no coeficiente de correlação da amostra \texto{r} e no tamanho da amostra \texto{n}.
Se o teste concluir que o coeficiente de correlação é significativamente diferente de 0, dizemos que o coeficiente de correlação é “significativo”
Conclusão: “Existem provas suficientes para concluir que existe uma relação linear significativa entre \texto{x} e \texto{y} porque o coeficiente de correlação é significativamente diferente de 0”
O que significa a conclusão: Existe uma relação linear significativa entre \texto{x} e \texto{y}. Podemos utilizar a linha de regressão para modelar a relação linear entre \text{x} e \text{y} na população.
Se o teste concluir que o coeficiente de correlação não é significativamente diferente de 0 (está próximo de 0), dizemos que o coeficiente de correlação é “não significativo”. “
Conclusão: “Não há provas suficientes para concluir que existe uma relação linear significativa entre \texto{x} e \texto{y} porque o coeficiente de correlação não é significativamente diferente de 0”
O que significa a conclusão: Não existe uma relação linear significativa entre \texto{x} e \texto{y}. Portanto, NÃO podemos utilizar a linha de regressão para modelar uma relação linear entre \text{x} e \text{y} na população.
Executar o Teste de Hipótese
A nossa hipótese nula será que o coeficiente de correlação NÃO é significativamente diferente de 0. A nossa hipótese alternativa será que o coeficiente de correlação da população é significativamente diferente de 0. Existe uma relação linear significativa (correlação) entre \text{x} e \text{y} na população.
Utilizar uma tabela de valores críticos para tomar uma decisão
Os valores críticos de 95% da tabela de coeficientes de correlação da amostra mostrada em dá-nos uma boa ideia se o valor calculado de \text{r} é significativo ou não. Comparar \texto{r} com o valor crítico apropriado na tabela. Se o \texto{r} não estiver entre os valores críticos positivos e negativos, então o coeficiente de correlação é significativo. Se \texto{r} for significativo, então podemos usar a linha para previsão.
95% Valores Críticos da Tabela de Coeficientes de Correlação da Amostra: Esta tabela dá-nos uma boa ideia se o valor calculado de r é significativo ou não.
p> Como exemplo, suponha que calculou \texto{r}=0,801 usando \texto{n}=10 pontos de dados. \text{df} = \text{n}-2 =10-2 = 8. Os valores críticos associados a \text{df}=8 são \pm 0,632. Se o \text{r} for inferior ao valor crítico negativo ou se o \text{r} for superior ao valor crítico positivo, então o \text{r} é significativo. Uma vez que \texto{r}=0,801 e 0,801 > 0,632, \texto{r} é significativo e a linha pode ser usada para previsão.
Premissas no teste da significância do coeficiente de correlação
Testar a significância do coeficiente de correlação requer que certas suposições sobre os dados sejam satisfeitas. A premissa deste teste é que os dados são uma amostra de pontos observados retirados de uma população maior. Não examinámos a totalidade da população porque não é possível ou viável fazê-lo. Estamos a examinar a amostra para tirar uma conclusão sobre se a relação linear que vemos entre \texto{x} e \texto{y} nos dados da amostra fornece provas suficientemente fortes para que possamos concluir que existe uma relação linear entre \texto{x} e \texto{y} na população.
As suposições subjacentes ao teste de significância são:
- Existe uma relação linear na população que modela o valor médio de \texto{y} para valores variáveis de \texto{x}. Por outras palavras, o valor esperado de \texto{y} para cada valor em particular situa-se numa linha recta na população. (Não conhecemos a equação da linha para a população. A nossa linha de regressão a partir da amostra é a nossa melhor estimativa desta linha na população. )
- Os valores \texto{y} para qualquer valor em particular \texto{x} são normalmente distribuídos sobre a linha. Isto implica que há mais valores \texto{y} espalhados mais perto da linha do que os que estão espalhados mais longe. A suposição acima implica que estas distribuições normais estão centradas na linha: os meios destas distribuições normais de valores de \texto{y} encontram-se na linha.
- Os desvios padrão da população \text{y} valores sobre a linha são iguais para cada valor de \texto{x}. Por outras palavras, cada uma destas distribuições normais de valores de \texto{y} tem a mesma forma e distribuição sobre a linha.
- Os erros residuais são mutuamente independentes (sem padrão).