P-valor y contraste de hipótesis

Qué es el contraste de hipótesis, cómo se estandariza un estadístico y qué significa (y qué no) el p-valor, con una herramienta interactiva.

Por qué necesitamos contrastar

Cuando estimamos algo con datos —la media de una población, un coeficiente de regresión, la diferencia entre dos grupos— el número que obtenemos no es el valor real, es nuestra mejor aproximación a partir de una muestra concreta. Si cogiésemos otra muestra, nos saldría un número parecido, pero distinto.

Eso significa que cualquier estimación tiene dos preguntas detrás:

¿El valor que he obtenido es compatible con cierto valor concreto (por ejemplo, cero)?
O, por el contrario, ¿está lo suficientemente alejado como para descartar esa posibilidad con confianza?

Eso es contrastar una hipótesis.

El planteamiento

Imaginemos que estimamos una variable y nos sale el valor 8. En econometría podría ser, por ejemplo, un coeficiente $\hat{\beta}_1$ que hemos obtenido por mínimos cuadrados.

Cuando nos preguntan si es significativo —es decir, significativamente distinto de cero—, lo que en realidad nos están diciendo es:

"Vamos a imaginar que el valor real es cero (hipótesis nula: $\beta_1 = 0$ ). Dime si te lo crees (aceptas $H_0$ ) o no te lo crees (rechazas $H_0$ )."

La estrategia para responder es la siguiente: asumimos provisionalmente que $H_0$ es cierta, miramos cómo de raro sería obtener un valor como el nuestro bajo esa suposición, y decidimos en consecuencia.

La estandarización: por qué no comparamos directamente

Nuestra estimación $\hat{\beta}_1$ es una variable aleatoria. Tiene una distribución que depende de su media y de su error estándar, pero esa distribución concreta no está tabulada en ningún sitio. Lo que sí está tabulado es la distribución normal estándar Z (media 0, desviación típica 1).

Por eso normalizamos nuestro valor:

Z = \frac{\hat{\beta}_1 - \beta_0}{\sigma / \sqrt{n}}

Le restamos la media bajo $H_0$ (que en el caso típico es cero) y dividimos por el error estándar. El resultado es un número en escala estandarizada que sí podemos comparar con la tabla.

Si $Z$ cae dentro del rango que englobaría el 95% de las muestras bajo $H_0$ (aproximadamente entre −1,96 y +1,96 para un contraste bilateral), no tenemos motivos para descartar $H_0$ . Si cae fuera, sí.

Explora el contraste tú mismo

A continuación tienes una herramienta interactiva con dos gráficos coordinados.

Arriba ves la distribución Z, fija. La barra coral se mueve según el valor del estadístico $Z$ que estés calculando.

Abajo ves la distribución muestral de $\bar{x}$ bajo $H_0$ —la banda verde—. Su anchura cambia según el error estándar: a mayor $\sigma$ o menor $n$ , más ancha es. La cola coloreada a la derecha de tu media muestral representa $P(\bar{X} > \bar{x} \mid H_0)$ , es decir, la probabilidad de que, si $H_0$ fuese cierta, obtuviéramos una muestra al menos tan extrema como la nuestra. Eso es el p-valor (unilateral).

Cuando esa cola es menor del 5%, se pinta en rojo: rechazamos $H_0$ . Cuando es mayor o igual, se pinta en ámbar: no la rechazamos.

Tres experimentos que vale la pena hacer

Experimento 1 — la frontera del 5%

Deja $\sigma = 1$ y $n = 1$ . Mueve $\bar{x}$ lentamente desde 1,5 hacia 1,8. Verás cómo, en torno a $\bar{x} \approx 1{,}645$ , la cola pasa del ámbar al rojo. Esa es exactamente la frontera de significación al 5% unilateral. El cambio de color es continuo en los datos, pero la decisión es binaria. Esta tensión —entre evidencia continua y veredicto binario— es una de las críticas modernas más serias al uso ritual de los p-valores.

Experimento 2 — el papel de la variabilidad

Pon $\bar{x} = 2$ , $\sigma = 1$ , $n = 1$ . El estadístico $Z$ vale 2, la cola está en torno al 2,3%, rojo intenso: rechazamos. Ahora sube $\sigma$ a 2 sin tocar lo demás. La banda verde se ensancha y la misma $\bar{x} = 2$ pasa a estar dentro de la zona de variabilidad esperable: $Z$ baja a 1, la cola sube al 16%, no rechazamos.

La narrativa es importante: si la variabilidad de la media muestral es alta, observar un valor alejado del centro deja de ser sorprendente bajo $H_0$ , porque encaja con esa variabilidad esperada. El mismo dato observado puede llevar a conclusiones opuestas según cuánto ruido haya.

Experimento 3 — el efecto del tamaño muestral

Mantén $\bar{x} = 0{,}3$ , $\sigma = 1$ , y sube $n$ progresivamente: 5, 30, 100, 200. La banda verde se va estrechando y la barra $Z$ se aleja del centro aunque $\bar{x}$ no se mueva. Con $n = 200$ y la misma media observada, ya estaríamos rechazando.

Esto explica por qué con muestras suficientemente grandes, prácticamente todo sale significativo. Una diferencia pequeña en magnitud, si la medimos con suficiente precisión, se vuelve estadísticamente significativa. Por eso significación estadística y relevancia práctica no son lo mismo, y conviene reportar siempre tamaños de efecto e intervalos de confianza junto al p-valor.

Lo que el p-valor no significa

Esta sección es importante porque el p-valor es uno de los conceptos peor interpretados de la estadística aplicada. Conviene clavarlo desde el principio.

El p-valor es:

p = P(\text{datos al menos tan extremos} \mid H_0 \text{ es cierta})

El p-valor no es:

La probabilidad de que $H_0$ sea cierta. Esto requiere Bayes y un prior; el p-valor no lo proporciona.
La probabilidad de que el resultado sea fruto del azar. El azar siempre está presente; el p-valor solo cuantifica cuán extremos serían los datos bajo una hipótesis concreta.
El nivel de confianza con el que podemos apostar a que $H_0$ es falsa. Por la misma razón que el primer punto: no es la probabilidad de la hipótesis dados los datos.

Lo único riguroso que un p-valor de 0,02 te garantiza es esto: si aplicamos esta regla de decisión sistemáticamente a hipótesis nulas que realmente son ciertas, nos equivocaremos como mucho el 2% de las veces. Es una propiedad del procedimiento bajo $H_0$ , no de tu muestra concreta.

Para profundizar: Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology, 31, 337-350.

Cómo redactar la conclusión de un contraste

Con un p-valor por debajo del nivel de significación elegido, dos formulaciones válidas:

Informal:

Si la media fuese realmente $\mu_0$ , datos así de extremos saldrían en menos del 5% de las muestras. Es lo bastante raro como para que prefiramos abandonar esa hipótesis, asumiendo que nos equivocaremos como mucho un 5% de las veces cuando $H_0$ sea cierta.

Formal:

Dado que nuestro estadístico ( $Z = 2{,}3$ ) es superior al valor crítico al 95% de confianza ( $Z_{\alpha/2} = 1{,}96$ ), rechazamos $H_0: \mu = 0$ al 5% de significación.

Lo importante: rechazar no es demostrar lo contrario. Es tomar una decisión con una propiedad de error conocida.

Páginas relacionadas

Variable aleatoria y por qué un coeficiente estimado lo es
Distribución muestral y el papel de $\sigma/\sqrt{n}$
Intervalos de confianza
T de Student: qué cambia cuando no conocemos $\sigma$