Probabilidad y Estadística 2023 Andalucia
Probabilidad condicionada y Teorema de Bayes: Detección de Spam
EJERCICIO 6
En una base de datos de correos electrónicos se ha observado que el $20\%$ de los correos recibidos son spam. Además, se ha observado que la palabra "lottery" ha aparecido en el $40\%$ de los correos que son spam y en el $0.6\%$ de los correos que no lo son.
a) (1.25 puntos) Halle la probabilidad de que en un correo elegido al azar en el que aparezca la palabra "lottery" sea spam.
b) (0.5 puntos) Halle la probabilidad de que un correo elegido al azar en el que no aparezca la palabra "lottery" no sea spam.
c) (0.75 puntos) Si un correo se etiqueta como spam si aparece la palabra "lottery" y como no spam si esta palabra no aparece, calcule la probabilidad de que un correo se etiquete incorrectamente.
Paso 1
Definición de sucesos y organización de los datos
**a) (1.25 puntos) Halle la probabilidad de que en un correo elegido al azar en el que aparezca la palabra "lottery" sea spam.**
Primero, definimos los sucesos del problema para poder operar con ellos:
- $S$: El correo es spam.
- $\bar{S}$: El correo no es spam.
- $L$: El correo contiene la palabra "lottery".
- $\bar{L}$: El correo no contiene la palabra "lottery".
Extraemos los datos del enunciado:
- $P(S) = 0.20$ (el $20\%$ son spam).
- $P(\bar{S}) = 1 - 0.20 = 0.80$ (el $80\%$ no son spam).
- $P(L|S) = 0.40$ (probabilidad de "lottery" si es spam).
- $P(L|\bar{S}) = 0.006$ (probabilidad de "lottery" si no es spam, $0.6\% = 0.006$).
Representamos la situación mediante un **árbol de probabilidad**:
Paso 2
Cálculo de la probabilidad de que un correo contenga 'lottery'
Para responder al apartado a), necesitamos conocer la probabilidad total de que aparezca la palabra "lottery", $P(L)$. Aplicamos el **Teorema de la Probabilidad Total**:
$$P(L) = P(S) \cdot P(L|S) + P(\bar{S}) \cdot P(L|\bar{S})$$
$$P(L) = (0.2 \cdot 0.4) + (0.8 \cdot 0.006)$$
$$P(L) = 0.08 + 0.0048 = 0.0848$$
💡 **Tip:** El Teorema de la Probabilidad Total consiste en sumar todas las ramas del árbol que terminan en el suceso que nos interesa (en este caso, $L$).
Paso 3
Cálculo de la probabilidad a posteriori (Bayes)
Nos piden la probabilidad de que sea spam sabiendo que contiene la palabra "lottery", es decir, $P(S|L)$. Usamos el **Teorema de Bayes**:
$$P(S|L) = \frac{P(S \cap L)}{P(L)} = \frac{P(S) \cdot P(L|S)}{P(L)}$$
$$P(S|L) = \frac{0.08}{0.0848} \approx 0.9434$$
✅ **Resultado apartado a):**
$$\boxed{P(S|L) \approx 0.9434 \quad (94.34\%)}$$
Paso 4
Probabilidad de no ser spam sabiendo que no aparece 'lottery'
**b) (0.5 puntos) Halle la probabilidad de que un correo elegido al azar en el que no aparezca la palabra "lottery" no sea spam.**
Debemos calcular $P(\bar{S}|\bar{L})$. Primero hallamos la probabilidad de que no aparezca la palabra "lottery", $P(\bar{L})$, que es el suceso contrario a $L$:
$$P(\bar{L}) = 1 - P(L) = 1 - 0.0848 = 0.9152$$
Ahora aplicamos de nuevo la definición de probabilidad condicionada:
$$P(\bar{S}|\bar{L}) = \frac{P(\bar{S} \cap \bar{L})}{P(\bar{L})} = \frac{P(\bar{S}) \cdot P(\bar{L}|\bar{S})}{P(\bar{L})}$$
$$P(\bar{S}|\bar{L}) = \frac{0.8 \cdot 0.994}{0.9152} = \frac{0.7952}{0.9152} \approx 0.8689$$
✅ **Resultado apartado b):**
$$\boxed{P(\bar{S}|\bar{L}) \approx 0.8689 \quad (86.89\%)}$$
Paso 5
Cálculo de la probabilidad de etiqueta incorrecta
**c) (0.75 puntos) Si un correo se etiqueta como spam si aparece la palabra "lottery" y como no spam si esta palabra no aparece, calcule la probabilidad de que un correo se etiquete incorrectamente.**
Un correo se etiqueta **incorrectamente** en dos situaciones:
1. Es **spam** pero no tiene la palabra "lottery" (se etiqueta como no spam). Esto es el suceso $S \cap \bar{L}$.
2. **No es spam** pero tiene la palabra "lottery" (se etiqueta como spam). Esto es el suceso $\bar{S} \cap L$.
Calculamos la probabilidad de la unión de estos dos casos incompatibles:
$$P(\text{Error}) = P(S \cap \bar{L}) + P(\bar{S} \cap L)$$
Consultamos los valores calculados en las ramas del árbol del paso 1:
- $P(S \cap \bar{L}) = P(S) \cdot P(\bar{L}|S) = 0.2 \cdot 0.6 = 0.12$
- $P(\bar{S} \cap L) = P(\bar{S}) \cdot P(L|\bar{S}) = 0.8 \cdot 0.006 = 0.0048$
Sumamos ambas probabilidades:
$$P(\text{Error}) = 0.12 + 0.0048 = 0.1248$$
💡 **Tip:** Un error de etiquetado ocurre cuando el estado real (Spam/No Spam) no coincide con el criterio de detección (Lottery/No Lottery).
✅ **Resultado apartado c):**
$$\boxed{P(\text{Error}) = 0.1248 \quad (12.48\%)}$$