edu.alceres.com

Regresión Lineal

La figura 1 muestra la relación entre dos variables, la temperatura Celsius (°C) entre 0 y 100 y la correspondiente temperatura en Fahrenheit (°F), la relación entre ambas variables es una relacion bien conocida dada por:

$$^{\circ}F = 1.8*(^{\circ}C)+32$$
°C	°F
 0	32
 5	41
10	50
15	59
20	68
25	77
30	86
35	95
40	104
45	113
50	122
55	131
60	140
65	149
70	158
75	167
80	176
85	185
90	194
95	203
100	212
      

La gráfica realizada con Excel es:

Observe que todos los puntos caen sobre la línea recta, observe también que hay un $R^2 = 1$, este nos dice que la regresión lineal entre las dos variables es perfecta, luego para todo valor de la temperatura en Celsius se sabe exactamente su valor en Fahrenheit.

En muchos procesos naturales, esta situación no se presenta. Tenemos en tal caso una nube de datos y se debe encontrar la mejor línea de regresión que represente a los datos. El coeficiente de regresión R es un buen indicativo de qué tan buena es la regresión entre las variables.

Representamos en un gráfico los pares de valores de una distribución bidimensional: la variable "x" en el eje horizontal o eje de abscisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables.

Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Observe la siguiente figura donde se observan los valores de del coeficiente de correlación $R$ de varias nubes de datos, observe que su valor se encuentra entre (0,1] para una correlación positiva, y entre [-1,0] para una correlación negativa:

Cuando $R=0$ o cercano a cero no hay correlación entre las variables.

Ejemplo

Bebés que gatean, Parte I. Un estudio realizado en la Universidad de Denver investigó si los bebés tardan más en aprender a gatear en los meses fríos, cuando suelen ir abrigados con ropa que restringe su movimiento, que en los meses más cálidos. Los bebés nacidos durante el año del estudio se dividieron en doce grupos, uno por cada mes de nacimiento. Se comparó la edad promedio de gateo de los bebés de cada grupo con la temperatura promedio a los seis meses (cuando suelen empezar a gatear). La temperatura se mide en grados Fahrenheit (°F) y la edad en semanas.

a) Describe la relación entre la temperatura y la edad de gateo.

Se observa que a medida que la temperatura aumenta, disminuye el tiempo en que el bebé aprende a gatear, luego la correlación es negativa. ¿se cumple lo que suponen los investigadores?

Ahora analice y responda las preguntas:

b) ¿Cómo cambiaría la relación si la temperatura se midiera en grados Celsius (°C) y la edad en meses?

c) La correlación entre la temperatura en °F y la edad en semanas fue $R = -0,70$.
Si convertimos la temperatura a °C y la edad a meses, ¿cuál sería la correlación?

El modelo lineal

Una recta viene definida por la siguiente fórmula:

$$y = b_0+b_1*x$$  

Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros:

El parámetro $b_0$ es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.

El parámetro $b_1$ determina la pendiente de la recta, su grado de inclinación. Esto da en qué medida cambia la variable dependiente $y$ por cada unidad de cambio de la variable independiente $x$.

La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor se ajusta a esta nube de puntos.

Nota: Si está acostumbrado a la forma de la recta como: y = mx + b, observe que es una froma completamente análoga.

El parámetro $b_1$ viene determinado por cualquiera de las siguientes fórmulas:

ecuaciones estimadores en la regresion lineal

De las ecuaciones para $b_1$, se observa que una forma de $b_1$ es como la relación entre la covarianza de las dos variables, dividida por la varianza de la variable independiente $x$.

Y el coeficiente de correlación de Pearson, es:
$$R = \frac{\sigma_{x,y}}{\sigma_x \sigma_x}=\frac{Cov(x,y)}{\sqrt{Var(x)*Var(y)}}$$

El coeficiente de determinación es $R^2$, es decir, se eleva al cuadrado el coeficiente de correlación.

El coeficiente de determinación expresado en porcentaje indica el % de la variación total de los valores de $y$ (variable dependiente) en la muestra de datos, se explica mediante la relación lineal con los valores de $x$ (variable independiente).

Para el cálculo de $b_0$, simplemente es la media de la variable dependiente, $\bar{y}$, menos la media de la variable independiente $\bar{x}$ multiplicada por el parámetro $b_1$ que hemos calculado previamente.

Ejemplo

Se tienen los datos de la altura en centímetros y el peso en kilogramos de un grupo de mujeres ejecutivas de varias empresas multinacionales

Altura	Peso
160	55
165	58
168	58
170	61
171	67
175	62
175	66
180	74
180	79
182	79
   

Encuentre el modelo lineal entre Estatura vs. peso

Solución. Realizamos las sumatorias para calcular la covarianza y varianza de x, como se indica en la tabla, calculando en primer lugar las medias:

$$\bar{x}=172.6$$ $$\bar{y}=65.9$$
xy$x-\bar{x}$$y-\bar{y}$$(x-\bar{x})(x-\bar{x})$$(x-\bar{x})^2$$(y-\bar{y})^2$
16055-12.6-10.9137.34158.76118.81
16558-7.6-7.960.0457.7662.41
16858-4.6-7.936.3421.1662.41
17061-2.6-4.912.746.7624.01
17167-1.61.1-1.762.561.21
175622.4-3.9-9.365.7615.21
175662.40.10.245.760.01
180747.48.159.9454.7665.61
180797.413.196.9454.76171.61
182799.413.1123.1488.36171.61
SUMAS:00515.6456.4692.9

De esta manera, ya que en las fórmulas para $b_1$ como la razón entre la covarianza y la varianza de x, ambos se dividen entre $n-1$, se siplifica y se vuelve solo la razón entre las sumatorias, así se tiene:

$$b_1 = \frac{cov(x,y)}{var(x)}=\frac{515.6}{456.4}=1.1297$$ $$b_0 = \bar{y}-b_1 \bar{x}=65.9-1.1297*172.6=-129.09$$

Así el modelo lineal es:

$$y = 1.1297x-129.09$$

Para encontrar el coeficiente de correlación, también se simplifica $n-1$ por lo cual se tiene:

$$R = \frac{cov(x,y)}{\sqrt{var(x)*var(y)}}=\frac{515.6}{\sqrt{456.4*692.9}}=0.9169$$

Luego el coeficiente de determinación $R^2$ es:

$$R^2 = 0.91692^2 = 0.8406$$

El coeficiente de determinación se interpreta como el 84.06% de la variación total de los valores del peso (variable dependiente $y$) en la muestra de datos, se explica mediante la relación lineal con los valores de la estatura (variable independiente $x$).

Se construye la gráfica (en este caso con Excel), y se agrega la línea de tendencia con su ecuación y el valor de $R^2$: