AC
Álvaro Casadevante
econometrics.alvarocasadevante.com
econometría/inferencia/p-valor
sección inicialapp / mdx
Sección en construcción·Contenido en MDX con KaTeX y la demo interactiva embebida como componente React.
Inferencia estadística · Entrada 03

P-valor y contraste de hipótesis

Qué es el contraste de hipótesis, cómo se estandariza un estadístico y qué significa (y qué no) el p-valor, con una herramienta interactiva.

Por qué necesitamos contrastar

Cuando estimamos algo con datos —la media de una población, un coeficiente de regresión, la diferencia entre dos grupos— el número que obtenemos no es el valor real, es nuestra mejor aproximación a partir de una muestra concreta. Si cogiésemos otra muestra, nos saldría un número parecido, pero distinto.

Eso significa que cualquier estimación tiene dos preguntas detrás:

  1. ¿El valor que he obtenido es compatible con cierto valor concreto (por ejemplo, cero)?
  2. O, por el contrario, ¿está lo suficientemente alejado como para descartar esa posibilidad con confianza?

Eso es contrastar una hipótesis.

El planteamiento

Imaginemos que estimamos una variable y nos sale el valor 8. En econometría podría ser, por ejemplo, un coeficiente β^1\hat{\beta}_1 que hemos obtenido por mínimos cuadrados.

Cuando nos preguntan si es significativo —es decir, significativamente distinto de cero—, lo que en realidad nos están diciendo es:

"Vamos a imaginar que el valor real es cero (hipótesis nula: β1=0\beta_1 = 0). Dime si te lo crees (aceptas H0H_0) o no te lo crees (rechazas H0H_0)."

La estrategia para responder es la siguiente: asumimos provisionalmente que H0H_0 es cierta, miramos cómo de raro sería obtener un valor como el nuestro bajo esa suposición, y decidimos en consecuencia.

La estandarización: por qué no comparamos directamente

Nuestra estimación β^1\hat{\beta}_1 es una variable aleatoria. Tiene una distribución que depende de su media y de su error estándar, pero esa distribución concreta no está tabulada en ningún sitio. Lo que sí está tabulado es la distribución normal estándar Z (media 0, desviación típica 1).

Por eso normalizamos nuestro valor:

Z=β^1β0σ/nZ = \frac{\hat{\beta}_1 - \beta_0}{\sigma / \sqrt{n}}

Le restamos la media bajo H0H_0 (que en el caso típico es cero) y dividimos por el error estándar. El resultado es un número en escala estandarizada que sí podemos comparar con la tabla.

Si ZZ cae dentro del rango que englobaría el 95% de las muestras bajo H0H_0 (aproximadamente entre −1,96 y +1,96 para un contraste bilateral), no tenemos motivos para descartar H0H_0. Si cae fuera, sí.

Explora el contraste tú mismo

A continuación tienes una herramienta interactiva con dos gráficos coordinados.

Arriba ves la distribución Z, fija. La barra coral se mueve según el valor del estadístico ZZ que estés calculando.

Abajo ves la distribución muestral de xˉ\bar{x} bajo H0H_0 —la banda verde—. Su anchura cambia según el error estándar: a mayor σ\sigma o menor nn, más ancha es. La cola coloreada a la derecha de tu media muestral representa P(Xˉ>xˉH0)P(\bar{X} > \bar{x} \mid H_0), es decir, la probabilidad de que, si H0H_0 fuese cierta, obtuviéramos una muestra al menos tan extrema como la nuestra. Eso es el p-valor (unilateral).

Cuando esa cola es menor del 5%, se pinta en rojo: rechazamos H0H_0. Cuando es mayor o igual, se pinta en ámbar: no la rechazamos.

Tres experimentos que vale la pena hacer

Experimento 1 — la frontera del 5%

Deja σ=1\sigma = 1 y n=1n = 1. Mueve xˉ\bar{x} lentamente desde 1,5 hacia 1,8. Verás cómo, en torno a xˉ1,645\bar{x} \approx 1{,}645, la cola pasa del ámbar al rojo. Esa es exactamente la frontera de significación al 5% unilateral. El cambio de color es continuo en los datos, pero la decisión es binaria. Esta tensión —entre evidencia continua y veredicto binario— es una de las críticas modernas más serias al uso ritual de los p-valores.

Experimento 2 — el papel de la variabilidad

Pon xˉ=2\bar{x} = 2, σ=1\sigma = 1, n=1n = 1. El estadístico ZZ vale 2, la cola está en torno al 2,3%, rojo intenso: rechazamos. Ahora sube σ\sigma a 2 sin tocar lo demás. La banda verde se ensancha y la misma xˉ=2\bar{x} = 2 pasa a estar dentro de la zona de variabilidad esperable: ZZ baja a 1, la cola sube al 16%, no rechazamos.

La narrativa es importante: si la variabilidad de la media muestral es alta, observar un valor alejado del centro deja de ser sorprendente bajo H0H_0, porque encaja con esa variabilidad esperada. El mismo dato observado puede llevar a conclusiones opuestas según cuánto ruido haya.

Experimento 3 — el efecto del tamaño muestral

Mantén xˉ=0,3\bar{x} = 0{,}3, σ=1\sigma = 1, y sube nn progresivamente: 5, 30, 100, 200. La banda verde se va estrechando y la barra ZZ se aleja del centro aunque xˉ\bar{x} no se mueva. Con n=200n = 200 y la misma media observada, ya estaríamos rechazando.

Esto explica por qué con muestras suficientemente grandes, prácticamente todo sale significativo. Una diferencia pequeña en magnitud, si la medimos con suficiente precisión, se vuelve estadísticamente significativa. Por eso significación estadística y relevancia práctica no son lo mismo, y conviene reportar siempre tamaños de efecto e intervalos de confianza junto al p-valor.

Lo que el p-valor no significa

Esta sección es importante porque el p-valor es uno de los conceptos peor interpretados de la estadística aplicada. Conviene clavarlo desde el principio.

El p-valor es:

p=P(datos al menos tan extremosH0 es cierta)p = P(\text{datos al menos tan extremos} \mid H_0 \text{ es cierta})

El p-valor no es:

  • La probabilidad de que H0H_0 sea cierta. Esto requiere Bayes y un prior; el p-valor no lo proporciona.
  • La probabilidad de que el resultado sea fruto del azar. El azar siempre está presente; el p-valor solo cuantifica cuán extremos serían los datos bajo una hipótesis concreta.
  • El nivel de confianza con el que podemos apostar a que H0H_0 es falsa. Por la misma razón que el primer punto: no es la probabilidad de la hipótesis dados los datos.

Lo único riguroso que un p-valor de 0,02 te garantiza es esto: si aplicamos esta regla de decisión sistemáticamente a hipótesis nulas que realmente son ciertas, nos equivocaremos como mucho el 2% de las veces. Es una propiedad del procedimiento bajo H0H_0, no de tu muestra concreta.

Para profundizar: Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology, 31, 337-350.

Cómo redactar la conclusión de un contraste

Con un p-valor por debajo del nivel de significación elegido, dos formulaciones válidas:

Informal:

Si la media fuese realmente μ0\mu_0, datos así de extremos saldrían en menos del 5% de las muestras. Es lo bastante raro como para que prefiramos abandonar esa hipótesis, asumiendo que nos equivocaremos como mucho un 5% de las veces cuando H0H_0 sea cierta.

Formal:

Dado que nuestro estadístico (Z=2,3Z = 2{,}3) es superior al valor crítico al 95% de confianza (Zα/2=1,96Z_{\alpha/2} = 1{,}96), rechazamos H0:μ=0H_0: \mu = 0 al 5% de significación.

Lo importante: rechazar no es demostrar lo contrario. Es tomar una decisión con una propiedad de error conocida.


Páginas relacionadas

  • Variable aleatoria y por qué un coeficiente estimado lo es
  • Distribución muestral y el papel de σ/n\sigma/\sqrt{n}
  • Intervalos de confianza
  • T de Student: qué cambia cuando no conocemos σ\sigma