Estadística sin límites

Pruebas de hipótesis con la correlación de Pearson

Probamos el coeficiente de correlación para determinar si la relación lineal en los datos de la muestra modela efectivamente la relación en la población.

Objetivos de aprendizaje

Utilizar una prueba de hipótesis para determinar la significación del coeficiente de correlación de Pearson.

Puntos clave

Puntos clave

  • El coeficiente de correlación de Pearson, \text{r}, nos habla de la fuerza de la relación lineal entre \text{x} y \text{y} puntos en un gráfico de regresión.
  • La prueba de hipótesis nos permite decidir si el valor del coeficiente de correlación poblacional \rho es «cercano a 0» o «significativamente diferente de 0» en función del coeficiente de correlación muestral \text{r} y el tamaño de la muestra \text{n}.
  • Si la prueba concluye que el coeficiente de correlación es significativamente diferente de 0, decimos que el coeficiente de correlación es «significativo».
  • Si la prueba concluye que el coeficiente de correlación no es significativamente diferente de 0 (es cercano a 0), decimos que el coeficiente de correlación es «no significativo».

Términos clave

  • Coeficiente de correlación de Pearson: una medida de la correlación lineal (dependencia) entre dos variables \text{X} y \text{Y}, que da un valor entre +1 y -1 inclusive, donde 1 es correlación positiva total, 0 es ausencia de correlación y -1 es correlación negativa

Prueba de la significación del coeficiente de correlación

El coeficiente de correlación de Pearson, \text{r}, nos habla de la fuerza de la relación lineal entre los puntos \text{x} y \text{y} de un gráfico de regresión. Sin embargo, la fiabilidad del modelo lineal también depende del número de puntos de datos observados en la muestra. Tenemos que mirar tanto el valor del coeficiente de correlación \text{r} como el tamaño de la muestra \text{n}, juntos. Realizamos una prueba de hipótesis de la «significación del coeficiente de correlación» para decidir si la relación lineal en los datos de la muestra es lo suficientemente fuerte como para usarla para modelar la relación en la población.

La prueba de hipótesis nos permite decidir si el valor del coeficiente de correlación poblacional \rho es «cercano a 0» o «significativamente diferente de 0». Esto lo decidimos en función del coeficiente de correlación de la muestra \text{r} y del tamaño de la muestra \text{n}.

Si la prueba concluye que el coeficiente de correlación es significativamente diferente de 0, decimos que el coeficiente de correlación es «significativo».

Conclusión: «Hay pruebas suficientes para concluir que existe una relación lineal significativa entre \text{x} y \text{y} porque el coeficiente de correlación es significativamente diferente de 0.»

Qué significa la conclusión: Existe una relación lineal significativa entre \text{x} y \text{y}. Podemos utilizar la recta de regresión para modelar la relación lineal entre \text{x} y \text{y} en la población.

Si la prueba concluye que el coeficiente de correlación no es significativamente diferente de 0 (está cerca de 0), decimos que el coeficiente de correlación es «no significativo. «

Conclusión: «No hay pruebas suficientes para concluir que existe una relación lineal significativa entre \text{x} y \text{y} porque el coeficiente de correlación no es significativamente diferente de 0.»

Qué significa la conclusión: No existe una relación lineal significativa entre \text{x} y \text{y}. Por lo tanto, NO podemos utilizar la recta de regresión para modelar una relación lineal entre \text{x} y \text{y} en la población.

Realización de la prueba de hipótesis

Nuestra hipótesis nula será que el coeficiente de correlación NO ES significativamente diferente de 0. NO HAY una relación lineal significativa (correlación) entre \text{x} y \text{y} en la población. Nuestra hipótesis alternativa será que el coeficiente de correlación de la población ES significativamente diferente de 0. HAY una relación lineal (correlación) significativa entre \text{x} y \text{y} en la población.

Utilizando una tabla de valores críticos para tomar una decisión

Los valores críticos al 95% de la tabla de coeficientes de correlación de la muestra que se muestra en nos da una buena idea de si el valor calculado de \text{r} es significativo o no. Compare \text{r} con el valor crítico apropiado en la tabla. Si \text{r} no está entre los valores críticos positivos y negativos, entonces el coeficiente de correlación es significativo. Si \text{r} es significativo, entonces podemos utilizar la línea para la predicción.

image

Valores críticos del 95% de la tabla de coeficientes de correlación de la muestra: Esta tabla nos da una buena idea de si el valor calculado de r es significativo o no.

Como ejemplo, supongamos que se ha calculado \text{r}=0,801 utilizando \text{n}=10 puntos de datos. \text{df} = \text{n}-2 =10-2 = 8. Los valores críticos asociados a \text{df}=8 son \pm 0,632. Si \text{r} es menor que el valor crítico negativo o \text{r} es mayor que el valor crítico positivo, entonces \text{r} es significativo. Dado que \text{r}=0,801 y 0,801 > 0,632, \text{r} es significativo y la línea puede utilizarse para la predicción.

Supuestos en la prueba de la significación del coeficiente de correlación

La prueba de la significación del coeficiente de correlación requiere que se cumplan ciertos supuestos sobre los datos. La premisa de esta prueba es que los datos son una muestra de puntos observados tomados de una población mayor. No hemos examinado toda la población porque no es posible o factible hacerlo. Estamos examinando la muestra para sacar una conclusión sobre si la relación lineal que vemos entre \text{x} y \text{y} en los datos de la muestra proporciona una evidencia lo suficientemente fuerte como para que podamos concluir que existe una relación lineal entre \text{x} y \text{y} en la población.

Los supuestos que subyacen a la prueba de significación son:

  • Existe una relación lineal en la población que modela el valor medio de \text{y} para valores variables de \text{x}. En otras palabras, el valor esperado de \text{y} para cada valor particular se encuentra en una línea recta en la población. (No conocemos la ecuación de la recta para la población. Nuestra línea de regresión de la muestra es nuestra mejor estimación de esta línea en la población. )
  • Los valores de \text{y} para cualquier valor de \text{x} concreto se distribuyen normalmente alrededor de la recta. Esto implica que hay más valores de \text{y} dispersos más cerca de la línea que los dispersos más lejos. El supuesto uno anterior implica que estas distribuciones normales están centradas en la recta: las medias de estas distribuciones normales de los valores de \text{y} se encuentran en la recta.
  • Las desviaciones típicas de los valores de \text{y} de la población en torno a la recta son iguales para cada valor de \text{x}. En otras palabras, cada una de estas distribuciones normales de los valores de \text{y} tiene la misma forma y dispersión alrededor de la línea.
  • Los errores residuales son mutuamente independientes (sin patrón).

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *