La figura 1 muestra la relación entre dos variables, la temperatura Celsius (°C) entre 0 y 100 y la correspondiente temperatura en Fahrenheit (°F), la relación entre ambas variables es una relacion bien conocida dada por:
$$^{\circ}F = 1.8*(^{\circ}C)+32$$
°C °F
0 32
5 41
10 50
15 59
20 68
25 77
30 86
35 95
40 104
45 113
50 122
55 131
60 140
65 149
70 158
75 167
80 176
85 185
90 194
95 203
100 212
La gráfica realizada con Excel es:
Observe que todos los puntos caen sobre la línea recta, observe también que hay un $R^2 = 1$, este nos dice que la regresión lineal entre las dos variables es perfecta, luego para todo valor de la temperatura en Celsius se sabe exactamente su valor en Fahrenheit.
En muchos procesos naturales, esta situación no se presenta. Tenemos en tal caso una nube de datos y se debe encontrar la mejor línea de regresión que represente a los datos. El coeficiente de regresión R es un buen indicativo de qué tan buena es la regresión entre las variables.
Representamos en un gráfico los pares de valores de una distribución bidimensional: la variable "x" en el eje horizontal o eje de abscisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:
![]() |
El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables.
Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos.
![]() |
Observe la siguiente figura donde se observan los valores de del coeficiente de correlación $R$ de varias nubes de datos, observe que su valor se encuentra entre (0,1] para una correlación positiva, y entre [-1,0] para una correlación negativa:
Cuando $R=0$ o cercano a cero no hay correlación entre las variables.
Bebés que gatean, Parte I. Un estudio realizado en la Universidad de Denver investigó si los bebés tardan más en aprender a gatear en los meses fríos, cuando suelen ir abrigados con ropa que restringe su movimiento, que en los meses más cálidos. Los bebés nacidos durante el año del estudio se dividieron en doce grupos, uno por cada mes de nacimiento. Se comparó la edad promedio de gateo de los bebés de cada grupo con la temperatura promedio a los seis meses (cuando suelen empezar a gatear). La temperatura se mide en grados Fahrenheit (°F) y la edad en semanas.

a) Describe la relación entre la temperatura y la edad de gateo.
Se observa que a medida que la temperatura aumenta, disminuye el tiempo en que el bebé aprende a gatear, luego la correlación es negativa. ¿se cumple lo que suponen los investigadores?
Ahora analice y responda las preguntas:
b) ¿Cómo cambiaría la relación si la temperatura se midiera en grados Celsius (°C) y la edad en meses?
c) La correlación entre la temperatura en °F y la edad en semanas fue $R = -0,70$.Una recta viene definida por la siguiente fórmula:
$$y = b_0+b_1*x$$Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros:
El parámetro $b_0$ es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.
El parámetro $b_1$ determina la pendiente de la recta, su grado de inclinación. Esto da en qué medida cambia la variable dependiente $y$ por cada unidad de cambio de la variable independiente $x$.
La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor se ajusta a esta nube de puntos.
Nota: Si está acostumbrado a la forma de la recta como: y = mx + b, observe que es una froma completamente análoga.
El parámetro $b_1$ viene determinado por cualquiera de las siguientes fórmulas:
![]() |
De las ecuaciones para $b_1$, se observa que una forma de $b_1$ es como la relación entre la covarianza de las dos variables, dividida por la varianza de la variable independiente $x$.
Y el coeficiente de correlación de Pearson, es:
$$R = \frac{\sigma_{x,y}}{\sigma_x \sigma_x}=\frac{Cov(x,y)}{\sqrt{Var(x)*Var(y)}}$$
El coeficiente de determinación es $R^2$, es decir, se eleva al cuadrado el coeficiente de correlación.
El coeficiente de determinación expresado en porcentaje indica el % de la variación total de los valores de $y$ (variable dependiente) en la muestra de datos, se explica mediante la relación lineal con los valores de $x$ (variable independiente).
Para el cálculo de $b_0$, simplemente es la media de la variable dependiente, $\bar{y}$, menos la media de la variable independiente $\bar{x}$ multiplicada por el parámetro $b_1$ que hemos calculado previamente.
Se tienen los datos de la altura en centímetros y el peso en kilogramos de un grupo de mujeres ejecutivas de varias empresas multinacionales
Altura Peso 160 55 165 58 168 58 170 61 171 67 175 62 175 66 180 74 180 79 182 79
Encuentre el modelo lineal entre Estatura vs. peso
Solución. Realizamos las sumatorias para calcular la covarianza y varianza de x, como se indica en la tabla, calculando en primer lugar las medias:
$$\bar{x}=172.6$$ $$\bar{y}=65.9$$| x | y | $x-\bar{x}$ | $y-\bar{y}$ | $(x-\bar{x})(x-\bar{x})$ | $(x-\bar{x})^2$ | $(y-\bar{y})^2$ |
|---|---|---|---|---|---|---|
| 160 | 55 | -12.6 | -10.9 | 137.34 | 158.76 | 118.81 |
| 165 | 58 | -7.6 | -7.9 | 60.04 | 57.76 | 62.41 |
| 168 | 58 | -4.6 | -7.9 | 36.34 | 21.16 | 62.41 |
| 170 | 61 | -2.6 | -4.9 | 12.74 | 6.76 | 24.01 |
| 171 | 67 | -1.6 | 1.1 | -1.76 | 2.56 | 1.21 |
| 175 | 62 | 2.4 | -3.9 | -9.36 | 5.76 | 15.21 |
| 175 | 66 | 2.4 | 0.1 | 0.24 | 5.76 | 0.01 |
| 180 | 74 | 7.4 | 8.1 | 59.94 | 54.76 | 65.61 |
| 180 | 79 | 7.4 | 13.1 | 96.94 | 54.76 | 171.61 |
| 182 | 79 | 9.4 | 13.1 | 123.14 | 88.36 | 171.61 |
| SUMAS: | 0 | 0 | 515.6 | 456.4 | 692.9 | |
De esta manera, ya que en las fórmulas para $b_1$ como la razón entre la covarianza y la varianza de x, ambos se dividen entre $n-1$, se siplifica y se vuelve solo la razón entre las sumatorias, así se tiene:
$$b_1 = \frac{cov(x,y)}{var(x)}=\frac{515.6}{456.4}=1.1297$$ $$b_0 = \bar{y}-b_1 \bar{x}=65.9-1.1297*172.6=-129.09$$Así el modelo lineal es:
$$y = 1.1297x-129.09$$Para encontrar el coeficiente de correlación, también se simplifica $n-1$ por lo cual se tiene:
$$R = \frac{cov(x,y)}{\sqrt{var(x)*var(y)}}=\frac{515.6}{\sqrt{456.4*692.9}}=0.9169$$Luego el coeficiente de determinación $R^2$ es:
$$R^2 = 0.91692^2 = 0.8406$$El coeficiente de determinación se interpreta como el 84.06% de la variación total de los valores del peso (variable dependiente $y$) en la muestra de datos, se explica mediante la relación lineal con los valores de la estatura (variable independiente $x$).
Se construye la gráfica (en este caso con Excel), y se agrega la línea de tendencia con su ecuación y el valor de $R^2$: