Probabilidad y Estadística 2021 Andalucia
Muestreo y estimación de la proporción
EJERCICIO 7
a) (1 punto) En una población constituida por los números naturales del $1$ al $9$, ¿cuántas muestras de tamaño $2$ se pueden formar por muestreo aleatorio simple? Si se elige al azar una de esas muestras, ¿cuál es la probabilidad de que el valor medio de los dos números de esa muestra sea $5$?
b) (1.5 puntos) Para estimar la proporción de andaluces contagiados por una enfermedad infecciosa en un momento determinado, se ha tomado una muestra de $10\,000$ personas, resultando que $500$ de ellas estaban infectadas.
1. Con ese dato, establezca un intervalo, al $97\%$ de confianza, para la proporción real de infectados en la población andaluza.
2. A la vista del intervalo obtenido, razone si se podría aceptar que el $6\%$ de la población andaluza estaba infectada.
3. Se toma una nueva muestra de mayor tamaño y resulta que hay la misma proporción de positivos en la nueva muestra. Con estos nuevos datos, razone si el nuevo intervalo al $97\%$ de confianza contiene al intervalo anterior o está contenido en él.
Paso 1
Cálculo del número de muestras posibles
**a) (1 punto) En una población constituida por los números naturales del $1$ al $9$, ¿cuántas muestras de tamaño $2$ se pueden formar por muestreo aleatorio simple? Si se elige al azar una de esas muestras, ¿cuál es la probabilidad de que el valor medio de los dos números de esa muestra sea $5$?**
En un **muestreo aleatorio simple**, cada elemento de la población (los números $\{1, 2, 3, 4, 5, 6, 7, 8, 9\}$) tiene la misma probabilidad de ser elegido. Por definición, en este tipo de muestreo se considera que el orden importa y que existe reemplazamiento (o que la población es lo suficientemente grande como para tratar las extracciones como independientes).
El número total de muestras de tamaño $n=2$ que se pueden formar a partir de una población de $N=9$ elementos es:
$$\text{Total de muestras} = N^n = 9^2 = 81.$$
💡 **Tip:** En el muestreo aleatorio simple (MAS) de poblaciones finitas para el estudio de la media muestral, se asume que las extracciones son independientes, lo que equivale a variaciones con repetición.
✅ **Número de muestras:**
$$\boxed{81}$$
Paso 2
Probabilidad de que la media sea 5
Para que el valor medio de los dos números de la muestra sea $5$, su suma debe ser $10$:
$$\bar{x} = \frac{x_1 + x_2}{2} = 5 \implies x_1 + x_2 = 10.$$
Buscamos los pares $(x_1, x_2)$ que sumen $10$ dentro del conjunto $\{1, 2, 3, 4, 5, 6, 7, 8, 9\}$:
- $(1, 9)$
- $(2, 8)$
- $(3, 7)$
- $(4, 6)$
- $(5, 5)$
- $(6, 4)$
- $(7, 3)$
- $(8, 2)$
- $(9, 1)$
Hay un total de **9 casos favorables**.
Aplicando la regla de Laplace:
$$P(\bar{X} = 5) = \frac{\text{Casos favorables}}{\text{Casos posibles}} = \frac{9}{81} = \frac{1}{9}.$$
✅ **Probabilidad:**
$$\boxed{P(\bar{X}=5) = \frac{1}{9} \approx 0.1111}$$
Paso 3
Identificación de datos para el intervalo de confianza
**1. Con ese dato, establezca un intervalo, al $97\%$ de confianza, para la proporción real de infectados en la población andaluza.**
Primero identificamos los datos del problema:
- Tamaño de la muestra: $n = 10\,000$
- Infectados en la muestra: $x = 500$
- Proporción muestral: $\hat{p} = \frac{500}{10\,000} = 0.05$
- Nivel de confianza: $1 - \alpha = 0.97$
Calculamos el valor crítico $z_{\alpha/2}$:
Si $1 - \alpha = 0.97$, entonces $\alpha = 0.03$ y $\alpha/2 = 0.015$.
Buscamos en la tabla de la Normal $N(0, 1)$ el valor que deja por debajo una probabilidad de $1 - 0.015 = 0.985$:
$$P(Z \le z_{\alpha/2}) = 0.985 \implies z_{\alpha/2} = 2.17.$$
💡 **Tip:** El valor crítico $z_{\alpha/2}$ es aquel que encierra el área central de confianza. Para el $97\%$, buscamos el valor que deja fuera el $1.5\%$ en cada cola.
Paso 4
Cálculo del intervalo de confianza para la proporción
La fórmula del intervalo de confianza para la proporción es:
$$I = \left( \hat{p} - z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \quad \hat{p} + z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right)$$
Calculamos el error máximo admisible ($E$):
$$E = 2.17 \cdot \sqrt{\frac{0.05 \cdot (1 - 0.05)}{10\,000}} = 2.17 \cdot \sqrt{\frac{0.05 \cdot 0.95}{10\,000}}$$
$$E = 2.17 \cdot \sqrt{0.00000475} = 2.17 \cdot 0.002179 = 0.004728.$$
Construimos el intervalo:
$$\text{Límite inferior} = 0.05 - 0.004728 = 0.045272$$
$$\text{Límite superior} = 0.05 + 0.004728 = 0.054728$$
✅ **Intervalo de confianza:**
$$\boxed{I = (0.0453, \; 0.0547)}$$
Paso 5
Análisis del valor 6%
**2. A la vista del intervalo obtenido, razone si se podría aceptar que el $6\%$ de la población andaluza estaba infectada.**
Para comprobar si un valor es aceptable con ese nivel de confianza, debemos verificar si dicho valor pertenece al intervalo calculado.
El valor propuesto es $p = 6\% = 0.06$.
Observamos los límites del intervalo obtenido en el paso anterior: $(0.0453, \; 0.0547)$. Dado que:
$$0.06 > 0.0547$$
El valor **no se encuentra dentro del intervalo de confianza**.
✅ **Conclusión:**
$$\boxed{\text{No se puede aceptar el } 6\% \text{ como proporción real con un } 97\% \text{ de confianza.}}$$
Paso 6
Relación entre el tamaño muestral y la amplitud del intervalo
**3. Se toma una nueva muestra de mayor tamaño y resulta que hay la misma proporción de positivos en la nueva muestra. Con estos nuevos datos, razone si el nuevo intervalo al $97\%$ de confianza contiene al intervalo anterior o está contenido en él.**
Analizamos la expresión de la amplitud (o el error) del intervalo:
$$E = z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$
Si mantenemos el mismo nivel de confianza ($z_{\alpha/2}$ es igual) y la misma proporción muestral ($\hat{p}$ es igual), el error depende únicamente del tamaño de la muestra ($n$).
Al ser $n$ el denominador de la raíz, si aumentamos el tamaño de la muestra ($n' > n$), el valor del error disminuye:
$$n' > n \implies \sqrt{\frac{\hat{p}(1-\hat{p})}{n'}} < \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \implies E' < E.$$
Como ambos intervalos están centrados en el mismo punto $\hat{p} = 0.05$, el nuevo intervalo será más estrecho que el original. Por tanto, el nuevo intervalo estará **contenido en el intervalo anterior**.
💡 **Tip:** A mayor tamaño de muestra, más precisión tenemos en la estimación, lo que se traduce en intervalos de confianza más pequeños (más estrechos).
✅ **Conclusión:**
$$\boxed{\text{El nuevo intervalo está contenido en el anterior.}}$$