Datos agrupados

Cuando trabajamos con un conjunto grande de números, generalmente no podemos sacar conclusiones pues solemos concentrarnos en los valores mayores o en los menores o en los más frecuentes sin afirmar algo categóricamente. En este sentido, decimos que tenemos datos, pero no información.

add

Datos agrupados

Cuando trabajamos con un conjunto grande de números, generalmente no podemos sacar conclusiones pues solemos concentrarnos en los valores mayores o en los menores o en los más frecuentes sin afirmar algo categóricamente. En este sentido, decimos que tenemos datos, pero no información.

En estadística se denomina distribución de frecuencias a la agrupación de datos, generalmente representada en una tabla, en categorías excluyentes que concentran el número de veces que tales datos se repiten, es decir, su frecuencia de aparición en cierto conjunto. La intención es observar de manera más sencilla el número de datos existentes en cada categoría de la distribución.

La antropometría estudia medidas del cuerpo humano de una población específica, como son el tamaño del cuerpo, las formas, la fuerza y la capacidad de trabajo. Su estudio es fundamental en una disciplina llamada ergonomía, que utiliza los datos antropométricos para diseñar espacios de trabajo, herramientas, equipo de seguridad y protección personal, considerando las diferencias entre las características, capacidades y límites físicos del cuerpo humano.

Imagínate que la UNAM decide construir una nueva biblioteca e invita a participar en el grupo de diseño del proyecto a un grupo de especialistas en ergonomía que garanticen que los usuarios podrán disponer de espacios, mobiliario e instalaciones óptimos para realizar su trabajo. Entre las primeras actividades recopilan información acerca de las características y demandas de los usuarios potenciales. Uno de los recursos que emplean es aplicar una encuesta entre los estudiantes, profesores y trabajadores universitarios que usarán la biblioteca. La encuesta incluye preguntas acerca de la estatura, edad y género de los encuestados y se aplica a un total de 1000 personas. Tu trabajo será organizar la información.

Hay algunas preguntas que pueden tener muchas respuestas posibles por ejemplo la estatura. Las respuestas podrían variar de centímetro en centímetro entre 1.50 y 2.00 metros por lo menos, es decir, más de ¡50 posibles respuestas! ¿Te imaginas hacer una tabla de frecuencias de 50 renglones?

Cuando la cantidad de posibles respuestas es grande -digamos más de 10- es necesario trabajar la información de una manera simplificada; para ello, lo que se acostumbra es dividir el espectro de valores posibles en intervalos, llamados clases que luego se registran en una tabla de frecuencias conocida como distribución de frecuencias agrupadas. Así, en vez de usar cada uno de los valores individuales como categorías, se trabaja con rangos de valores, de modo que se trabaja con una distribución más compacta, que permitirá que los comportamientos y tendencias puedan visualizarse mejor.

Para la construcción de una distribución de frecuencias agrupadas primero aprenderemos a determinar las clases y con ellas construir la tabla de frecuencias hasta llegar a expresar los resultados gráficamente mediante un histograma.

Revisemos las estaturas de 40 alumnos.

1.51

1.63

1.72

1.85

1.61

1.63

1.73

1.85

1.61

1.64

1.74

1.86

1.60

1.64

1.75

1.86

1.60

1.65

1.75

1.87

1.59

1.66

1.77

1.88

1.56

1.66

1.78

1.88

1.55

1.69

1.80

1.90

1.54

1.71

1.83

1.92

1.52

1.72

1.83

1.99

Clases

Determinemos las clases.

1. Rango de valores. Ordena los datos e identifica el valor máximo y mínimo. Con ellos vamos a determinar el rango. Como puedes ver, el valor mínimo es 1.51 m, el valor máximo es 1.99 m. El rango es: 1.99 - 1.51=0.48 m

2. Número de clases. Cada uno de los intervalos de valores que utilizaremos en la distribución de frecuencias agrupadas se llama clase. Es una costumbre muy frecuente dividir el rango de valores en 10 clases como máximo, pues con más clases, el trabajo puede ser muy laborioso y con menos clases se puede perder precisión. Cuando el número de datos no es muy grande (digamos a lo más 150), una manera de determinar el número de clases es usando la siguiente fórmula:

$$\text{número de clases }=\sqrt{ n}$$

Donde $n$ es el número de datos. Así que aplicando la fórmula a nuestro ejercicio tenemos $\sqrt{40}=6.3\approx 6$, esto es 6 clases.

3. Ancho de clase. Todos los intervalos o clases deben tener el mismo ancho y no deben superponerse, de manera que cada dato caiga dentro de solamente una clase. Para darnos una primera idea del ancho de clase dividiremos el rango entre el número de clases:

$$\text{ancho }= \frac{\text{rango}}{\text{no. de clases}}=\frac{0.48\: m}{6}=0.08\: m=8\: cm$$

Este resultado indica que el ancho de cada clase deberá ser de 8 cm. Sin embargo siempre que sea posible resulta práctico usar números que sean múltiplos de 5 por ello, en nuestro caso elegiremos un ancho de clase de 10 cm. Si esto no es posible, elige un número que resulte conveniente para lograr que todos los datos sean cubiertos por las clases.

4. Límites de clases. Una vez que hemos definido el número de clases y su ancho, podemos empezar a construir la tabla con la distribución de frecuencias. tendremos tantos renglones como clases y una que indique los valores que componen cada intervalo. Podemos también colocar dos columnas adicionales: una que indique específicamente cuál es el límite inferior y otra para el límite superior. Para establecer los límites de cada intervalo observamos el valor del dato mínimo que es 1.51 cm y damos un pequeño margen previo por lo que elegimos como inicio del primer intervalo 1.45 m, y como el ancho es de 10 cm, este intervalo abarcará de 1.45 a 1.54 m, el segundo abarcará de 1.55 m a 1.64 m y así sucesivamente.

Veamos cómo queda la tabla.

Número de clase Intervalo de valores Intervalo
Inferior Superior
1 1.45 1.54 1.45-1.54
2 1.55 1.64 1.55-1.64
3 1.65 1.74 1.65-1.74
4 1.75 1.84 1.75-1.84
5 1.85 1.94 1.85-1.94
6 1.95 2.04 1.95-2.04

5. Límites exactos. Existen muchas variables que son continuas, es decir, deben toman valores de entre todos los números reales todos. En nuestro caso, la estatura, es una variable continua, por lo que entre un intervalo y el siguiente no debe quedar fuera ningún número.

Si el límite superior del primer intervalo es 1.54 m y el límite inferior del segundo intervalo es 1.55 m, quedan fuera una infinidad de números,todos los que están entre estos dos números, para evitar esto, vamos a calcular intervalos exactos.

Primero hay que encontrar la diferencia entre 1.54 y 1.55

$$1.55-1.54=0.01$$

y la dividimos en 2 partes iguales, esto es

$$\frac{0.01}{2}=0.005$$

Restaremos a cada límite inferior este valor y en el límite superior lo sumaremos. De esta manera tenemos intervalos continuos y abarcaremos todos los números. Colocamos esta información en dos nuevas columnas.

6. Marcas de clase. Antes de proceder a obtener las frecuencias de cada intervalo calcularemos la marca de clase, que es el valor central de cada intervalo, y que se utiliza como valor representativo, al calcular la media y la desviación estándar en las distribuciones agrupadas.

Para calcular la marca de clase, sólo hay que sumar los límites superior e inferior del intervalo y dividir el resultado entre 2. Agregamos una columna con esta información.

Nuestra tabla quedará entonces de la manera siguiente. Observa que también hemos agregado un renglón final para la suma de valores.

Número de clase Intervalo de valores Límites exactos Marca de clase
Inferior Superior Intervalo Inferior Superior
1 1.45 1.54 1.45-1.54 1.445 1.545 1.495
2 1.55 1.64 1.55-1.64 1.545 1.645 1.595
3 1.65 1.74 1.65-1.74 1.645 1.745 1.695
4 1.75 1.84 1.75-1.84 1.745 1.845 1.795
5 1.85 1.94 1.85-1.94 1.845 1.945 1.895
6 1.95 2.04 1.95-2.04 1.945 2.045 1.995
SUMA

Sigamos con la construcción de la tabla.

7. Obtención de las frecuencias absolutas. De la lista de datos, obtenemos cuántos de ellos hay dentro de cada clase, esta es la frecuencia absoluta de los datos. Colocamos esta información en una columna adicional en la tabla. Al terminar, es importante sumar todas las frecuencias para verificar que el total sea igual al número de datos.

8. Cálculo de la frecuencia relativa y de la frecuencia relativa acumulada. Agregamos dos nuevas columnas, una con la frecuencia relativa que se obtiene al dividir la frecuencia absoluta entre el total de los datos y redondear $\frac{3}{40}=0.08; \quad\frac{11}{40}=0.28; \quad \text{etc.}$

Después, multiplicamos por 100 para obtener porcentajes y así la presentamos en la tabla $0.08 \times 100= 8\%; \quad 0.28 \times 100=28\%, $ etc. En cada renglón se calcula de la misma manera.

Para obtener la frecuencia relativa acumulada, vamos a ir sumando cada una de las celdas de frecuencia relativa con la anterior -salvo la primera- en este ejemplo tenemos para la primera celda 8%, para la segunda sumamos 8% + 28% = 36%, la siguiente celda será 36% + 23% = 59% y así sucesivamente, en la última clase debes asegurarte de tener 100%.

Número de clase Intervalo de valores Límites exactos Marca de clase Frecuencia absoluta Frecuencia acumulada Frecuencia relativa Frecuencia relativa acumulada
Inferior Superior Intervalo Inferior Superior
1 1.45 1.54 1.45-1.54 1.445 1.545 1.495 3 3 8% 8%
2 1.55 1.64 1.55-1.64 1.545 1.645 1.595 11 14 28% 36%
3 1.65 1.74 1.65-1.74 1.645 1.745 1.695 9 23 23% 59%
4 1.75 1.84 1.75-1.84 1.745 1.845 1.795 7 30 18% 76%
5 1.85 1.94 1.85-1.94 1.845 1.945 1.895 9 39 23% 97%
6 1.95 2.04 1.95-2.04 1.945 2.045 1.995 1 40 3% 100%
SUMA 40 100%

Autoevaluación

Esperamos este procedimiento haya sido claro, pero para verificar tus aprendizajes, te invitamos a realizar el ejercicio siguiente.

En una panadería, se preguntó la edad a los visitantes que entraron de las 12 a las 12:30, y se obtuvieron los siguientes resultados:

$n=$

Rango: años.

Número de clases: $ \sqrt{42}=$ $\approx$

Ancho de clase: años. Por lo que resulta más conveniente, hacer el ancho de clase de años.

¿Con este valor cubres todos los datos dados?

Ahora en tu cuaderno llena la siguiente tabla de frecuencias para datos agrupados. Una vez que la hayas llenado verifica tus respuestas.

Número de clase Intervalo de valores Límites exactos Marca de clase Frecuencia absoluta Frecuencia acumulada Frecuencia relativa Frecuencia relativa acumulada
Inferior Superior Intervalo Inferior Superior
1
2
3
4
5
6
7
8
SUMA 42 100%
send Evaluar