Probabilidad y estadistica: Coeficiente de Correlacion Lineal

← Anterior: Distribuciones marginales Siguiente: Regresión lineal→

En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre sí.

Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso, y bajo esta supuesta relación, se define el índice de masa corporal, el cual es una herramienta usada por profesionales de la salud para estimar la cantidad de grasa corporal a partir de la relación entre el peso y la altura. Sirve como una evaluación inicial para identificar si una persona tiene un peso adecuado, bajo o elevado.

Correlación

La definición de correlación en el diccionario es: "Una relación o conexión mutua entre dos o más cosas". Una definición más formal dice: "La correlación es un método estadístico utilizado para evaluar una posible asociación entre dos o más variables". Si esta asociación existe, se podría establecer mediante otros métodos si se presenta un fenómeno de causa - efecto.

En estadística, la correlación es una herramienta indispensable que constituye la base para análisis estadísticos más profundos, como la previsión, pronóstico, la toma de decisiones y la simulación entre otros.

La correlación aborda tres preguntas principales:
1. ¿Existe una relación entre las variables estudiadas?
2. ¿Existe una relación entre las variables estudiadas? El coeficiente de correlación responde a esta pregunta (0 indica ausencia de correlación lineal; cualquier otro valor indica la presencia de correlación).
¿Cuál es la fuerza de esta relación? Valor del coeficiente de correlación (un valor más cercano a +1 o -1 indica una correlación fuerte, y un valor más cercano a 0 indica una correlación menor).
¿Cuál es la dirección de esta relación? Indicada por el signo del coeficiente de correlación (positivo o negativo) (Fig. 5.1). Comprendamos el concepto y el cálculo de esta herramienta esencial con varios ejemplos y conjuntos de datos.

Ejemplos. Si bien la asociación entre variables dada por una buena regresión, no implica causalidad (fenómeno de causa-efecto), sí puede dar pie a plantear sospechas (hipótesis) al respecto, como:

- Siempre observamos que el cambio estacional (causa) se correlaciona con las ventas de muchos productos, como helados, paraguas y prendas de lana (efecto).
- Existe una correlación entre ver contenido violento en televisión durante largas horas (causa) y el comportamiento agresivo de los adolescentes (efecto).
- Los psicólogos coinciden en que existe una alta correlación entre la hiperactividad de un niño pequeño (efecto) y el porcentaje de azúcar en los alimentos que consume (causa).
- La econometría (rama de modelos matemáticos de la economía) estudia numerosas correlaciones entre precio y cantidad, demanda y oferta de bienes y servicios, etc.

Ejemplo. Correlación entre Esfuerzo y Recompensa de un trabajador

Las variables en análisis de regresión, pueden tomar varios nombres como se indica en la tabla No. 1

Tabla No.1. Varios nombres a los tipos de variables de la correlación

Causa	Efecto
Independiente (x)	Dependiente (y)
Predictor	Predicho
Explicativa	Respuesta

Variables y tipos de variables

Variables explicativas, de respuesta y ocultas: Consideremos el par ordenado (x, y), donde x se denomina variable explicativa e y es la variable de respuesta.

Según el modelo lineal, los cambios en x tienen un cambio correspondiente en y. En analítica, la variable que explica un escenario o que puede manipularse en experimentos se denomina variable explicativa. La variable que describe el efecto de los cambios en la variable explicativa se denomina variable de respuesta. La Tabla 1 muestra los diferentes nombres de las variables de causa y efecto. Cabe señalar, sin embargo, que en correlación, no distinguimos entre variables de “causa y efecto”, ya que la correlación no trata sobre causalidad. Este concepto se abordará en detalle más adelante en este curso.

Variable oculta: Una variable oculta es responsable de los cambios tanto en x como en y. Muchas veces, dicha variable provoca una correlación entre dos variables relacionadas o no relacionadas. Se puede definir como una variable que tiene un efecto importante, pero que no se incluye entre las variables predictoras consideradas. Consideremos los siguientes ejemplos:

Ejemplo 1: Un estudio puede mostrar una alta correlación positiva entre la cantidad de helados vendidos y la cantidad de muertes por ahogamiento. ¡Definitivamente es erróneo concluir que comer helado provoca más muertes!

Análisis: La variable oculta, en este caso, es la temperatura. Los días más calurosos implican más helados y más personas nadando (y lamentablemente algunas se pueden ahogar); por lo tanto, esta variable provoca un aumento en ambas variables estudiadas.

Ejemplo 2: Las personas que beben agua embotellada tienen bebés más grandes que las que beben agua del grifo.

Análisis: Aquí, la variable oculta es la riqueza; solo las personas ricas pueden permitirse beber agua embotellada y sus bebés también tienen mayor peso al nacer. Por lo tanto, sería erróneo concluir que el agua embotellada causa bebés más grandes.

Ejemplo 3: Durante la última década, la población de una localidad determinada mostró un aumento. Si x representa el número de personas que rezan en lugares de culto, y es el número de personas que fueron multadas por exceso de velocidad. Y dado que x e y muestran una alta correlación, es erróneo concluir que la oración causó que la gente condujera a exceso de velocidad. La variable clave aquí es el aumento de la población.

El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta).

No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación entre las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver que forma describen.