Coeficiente de correlación y de determinación

En esta clase vamos a revisar lo que es el coeficiente de correlación y el de determinación, de hecho ustedes lo han usado cuando en su gráfica ponen una línea de tendencia y ponen lo que hasta ahora conocen como R2, ese es el coeficiente de determinación en tanto que su raíz cuadrada, o sea R (más correctamente r) es el coeficiente de correlación.

Una correlación, es simplemente la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.

Es decir, la correlación nos indica si los cambios en una de las variables (la independiente) influyen en los cambios de la otra (dependiente). En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.

Si bien la correlación puede ser exponencial o potencial o lineal, por ahora solo veremos la correlación lineal o de Pearson.

 

TIPOS DE CORRELACIÓN LINEAL.

 

1º Correlación directa o positiva
La correlación directa se da cuando al aumentar una de las variables la otra aumenta.
La recta correspondiente a la nube de puntos de la distribución es una recta creciente.



2º Correlación inversa o negativa
La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.
La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.


3º Correlación nula
La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.
En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

 

Grado de correlación

Sin embargo para que esta herramienta de juicio resulte útil en estadística, tenemos que cuantificarla, es decir, contestar a la pregunta ¿Qué tan grande (o pequeña) es la correlación entre esas 2 variables?, esto se responde con el coeficiente de correlación, que indica que tan próximos están los puntos a la línea de tendencia que define su comportamiento.


La formula para calcular este índice es: 

El resultado de esta ecuación toma valores que van de -1 a + 1, por supuesto pasando por el cero.

Mientras más cercano sea el valor al -1 o al +1 nos indica que los puntos están muy cercanos a la línea de tendencia y que la correlación es fuerte, por el contrario mientras más se aleja de estos valores y se acerca al 0, indica que la correlación es cada vez más débil hasta que es prácticamente nula (no hay correlación entre las 2 variables)

Pero en esta ocasión no nos vamos a detener en ella sino que nos limitamos a ver las formas de calcularla e interpretarla a través de Excel.


COEFICIENTE DE DETERMINACION
El cuadrado del coeficiente de correlación es el coeficiente de determinación (R2), tiene las siguientes características:
1.    -Está acotado entre 0 y 1.
2.    -Se interpreta como el porcentaje de la variabilidad de la variable dependiente explicado por la variabilidad de la independiente.
3.    -Mide, por tanto, el cambio (porcentual) producido en la variable Y al realizarse un cambio de una unidad en la variable X.
4.    -Acompaña siempre a modelos de tipo lineal. No tiene potencia para medir relaciones de otro tipo.



Para verlo de manera gráfica vamos a partir de un ejemplo:

 

Problema ejemplo:

Suponga que sus empleados toman una prueba para medir la agilidad manual. Usted tiene la impresión de que la edad de los empleados está relacionada con las calificaciones de las pruebas. Diez empleados reportaron sus calificaciones de la prueba de agilidad manual. ¿Existe alguna correlación entre la edad de los empleados y las calificaciones de la prueba.

Empleado
Edad
Prueba
1
35
93
2
25
96
3
52
87
4
40
90
5
26
94
6
55
86
7
61
84
8
30
93
9
47
91
10
66
84

 Aqui puedes descargar la tabla en una hoja de Excel


GRAFICANDO

Primero veamos como contestar a esta pregunta por medio de una gráfica de dispersión con línea de tendencia lineal y pidiendo que se muestre la ecuación y la R2:

 

Dado este problema en especifico, pueden inferir que el cálculo de la media y la desviación estándar en este contexto NO APLICA, lo que se hace es:

Seleccionar las dos columnas completas (edad y prueba) pedir la gráfica de dispersión, agregar la linea de tendencia de tipo lineal y que se muestre la ecuación y la R2 como ya saben.

El valor dado por la R2 es el coeficiente de determinación nos indica el grado en que la habilidad manual de los empleados responde a la variable edad.

Para calcular la correlación y dado que sabemos que el coeficiente de determinación es el cuadrado del de correlación, solo calculamos la raíz cuadrada del coeficiente de determinación, el signo lo indica la pendiente positiva o negativa de la línea de tendencia.

 

CALCULANDO EL INDICE DE PEARSON DIRECTAMENTE

 

Observaciones:

La función de PEARSON devuelve el coeficiente de correlación producto o momento r de Pearson.  Como ya dijimos ‘r’ es un índice que está entre –1.0 y 1.0 que refleja el grado de dependencia lineal entre dos conjuntos de datos.
La función le pide lo siguiente: PEARSON(Array1, Array2) [PEARSON(matriz1, matriz2)]:

Array 1 es un conjunto de valores independientes.
Array 2 es un de conjunto valores dependientes.

Como resultado, la función para el problema ejemplo es la siguiente: PEARSON(B2:B11, C2:C11). El coeficiente de correlación producto o momento r en este caso es r= 0.971591.

En otras palabras, sí existe una alta correlación fuerte entre la edad de los empleados y la calificación de la prueba de agilidad manual.


En tanto que el coeficiente de determinación R2 nos indica el porcentaje en el que las variaciones de la variable independiente (edad) determinan a la dependiente (habilidad manual). 

Comentarios

Entradas populares de este blog

Datos de gráfica a tabla y distribución normal

X CUADRADA COMO PRUEBA DE INDEPENDENCIA DE VARIABLES.