edu.alceres.com

DATOS AGRUPADOS EN CLASES Y SU GRAFICACIÓN COMO HISTOGRAMAS

Variables con muchos datos distintos: Datos Agrupados

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis. (tal como se verá en la siguiente lección).

En este caso se agrupan los valores de la variable en intervalos de clase. El punto medio de cada intervalo de clase se denomina marca de clase y es el valor que representa la información contenida en el intervalo. Los extremos de los intervalos de clase se llaman límites de la clase. Las marcas de clase se calculan como el promedio de los límites superior e inferior de la clase. Las frecuencias absolutas de clase se obtienen contando el número de datos que caen en el intervalo correspondiente. A partir de estas se calculan las frecuencias absolutas acumuladas y las relativas, acumuladas o no, de clase. La tabla de frecuencias incorporarálosintervalos de clase,las correspondientes marcas de clase, y las frecuencias (absolutas y relativas, acumuladas o no) de clase.

La elección de los intervalos de clase, tanto en número como en amplitud (constante o variable), es una cuestión subjetiva del investigador, aunque hay una serie de procedimientos que podemos tener en cuenta:

- El número de intervalos K suele oscilar entre 5 y 20. Se puede determinar como K = √(n), con n como el número de datos. O también con la fórmula de Sturges: K = 1 + 3.3log(n) y en cualquier caso se aproxima el resultado al entero más cercano.

- La amplitud de cada intervalo suele ser fija y se calcula redondeando por exceso el cociente

     l =
RK
   

donde R es el recorrido de la variable y K el número de intervalos que queremos formar al mismo número de cifras decimales que los datos.

- Los intervalos suelen elegirse semiabiertos por la derecha, esto es, de la forma [a, b), de tal manera que se solapen en los extremos, tomándose tantos cuantos sean necesarios para cubrir todo el recorrido de la variable. Observe que a[a, b), pero b[a, b).

En ocasiones los datos se presentan agrupados en intervalos no solapados. En tal caso es aconsejable (principalmente a efectos de su representación gráfica) reemplazarlos por otros del tipo anterior, cuidando de no modificar las frecuencias; esto se logra sustituyendo los extremos de los intervalos originales por los puntos medios de los extremos derecho e izquierdo de cada dos intervalos contiguos. Los nuevos extremos reciben el nombre de límites reales de clase.

Ejemplo

Supongamos que medimos la estatura de los residentes de un edificio y obtenemos los siguientes resultados (m):

 
Residente Estatura Residente Estatura Residente Estatura
Residente1 1,15 Residente 11 1,53 Residente 21 1,21
Residente 2 1,48 Residente 12 1,16 Residente 22 1,59
Residente 3 1,57 Residente 13 1,60 Residente 23 1,86
Residente 4 1,71 Residente 14 1,81 Residente 24 1,52
Residente 5 1,92 Residente 15 1,98 Residente 25 1,48
Residente 6 1,39 Residente 16 1,20 Residente 26 1,37
Residente 7 1,40 Residente 17 1,42 Residente 27 1,16
Residente 8 1,64 Residente 18 1,45 Residente 28 1,73
Residente 9 1,77 Residente 19 1,20 Residente 29 1,62
Residente 10 1,49 Residente 20 1,98 Residente 30 1,01

Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30 líneas (una para cada valor -ya que son 30 residentes-), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3% (de 1 / 30) ya que no hay una misma estatura para dos o mas personas. Esta tabla nos aportaría escasa información. Además la variable estatura es una variable continua, y salvo que hayan muchos datos repetidos, lo normal es realizar la tabla con datos agrupados en clases.

En lugar de ello, preferimos agrupar los datos por intervalos clases, con lo que la información queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e informativa.

Si el analista decide tomar 10 clases de forma arbitraria sin aplicar la Formula de Sturges, esto da un ancho de clase de 0,9, y la construcción es como se ilustra en la siguiente tabla.

Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
1,01 - 1,10 1 1 3,3 % 3,3 %
1,11 - 1,20 3 4 10,0 % 13,3 %
1,21 - 1,30 3 7 10,0 % 23,3 %
1,31 - 1,40 2 9 6,6 % 30,0 %
1,41 - 1,50 6 15 20,0 % 50,0 %
1,51 - 1,60 4 19 13,3 % 63,3 %
1,61 - 1,70 3 22 10,0 % 73,3 %
1,71 - 1,80 3 25 10,0 % 83,3 %
1,81 - 1,90 2 27 6,6 % 90,0 %
1,91 - 2,0 3 30 10,0 % 100,0 %
 

Ahora, si se desea aplicar en primer lugar la Fórmula de Sturges y ser más riguroso en los cálculos y también apoyarse con Excel (vea los detalles en el curso completo de probabilidad y estadística) para que realice el conteo de los datos que están en cada intervalo de clase, de esta forma realizamos primero algunos cálculos básicos, con n = 30:

* Rango R = (Valor máximo) − (Valor mínimo) = 1,98 - 1,01 = 0,97

* K = 1 + 3,3*log(30) = 5,87 ≅ 6 Intervalos de clase (no redondee en el cálculo de l)

* l = R / K = 0,97/5,87 ≅ 0,165 ≅ 0,17

Como se tomaron los K intervalos de clase muy cerca al resultado de la fórmula, se debe ajustar el ancho de clase a 0,17 con lo cual se debe garantizar que con las clases se cubra completamente todos los datos. Se puede tomar la primera clase con el límite inferior un poco antes del valor mínimo de los datos, y asímismo que el límite superior de la última clase sea un poco superior al valor del dato máximo. Se organizan los datos en Excel en primer lugar en una columna y por facilidad y para verificación se organizan en orden ascendente. Luego se construyen los Intervalos de clase y se organiza la información como se observa en la siguiente figura:

Por supuesto que la columna A tiene todos los datos hasta 1,98.

Histograma

El resultado en Excel es:

El gráfico se puede pasar a otra página y editarlo para una mejor presentación, por ejemplo como:

Excel Analisis de datos

Ejemplo. Se tienen los pesos en kg de 50 estudiantes, como se muestra:

Excel Analisis de datos

Realice la tabla con los datos agrupados y realice el histograma en Excel.

Solución. Al realizar un procedimiento similar al ejemplo anterior, se tiene:

- No. de clases con fórmula de Sturges: 6,6, se aproximan a 6 (también se puede a 7)

- Rango = 76 - 55 = 21

Ancho de clase = 21/6 = 3.5, se aproxima a 4 para trabajar con cantidades enteras.

Luego se toma el valor inicial del intervalo de clase No en 55 sino un poco antes, en 54.

De esta forma se obtiene la tabla de frecuencias para datos agrupados como:

Excel Analisis de datos

El histograma con algún ajuste, es:

Excel Analisis de datos

Ahora practique con Nuestro ejercicio Interactivo sobre tabla de frecuencias para datos agrupados