PK Systems PK Systems
Marketing

Calculadora de Significancia de Test A/B

Test Z de dos proporciones para tests A/B, con p-valor, lift y veredicto de confianza.

Calculadora de Significancia de Test A/B

Resultado

Introduce ambos grupos para evaluar el test.

Qué te dice esta calculadora

Un test A/B compara dos versiones de una página o experiencia para ver cuál rinde mejor. El reto es separar diferencias reales del ruido aleatorio: con muestras pequeñas, casi cualquier diferencia parece ganadora. El test z de dos proporciones responde a «¿qué probabilidad hay de que esta diferencia sea pura suerte?» El resultado es un p-valor — la probabilidad de observar una diferencia al menos tan grande si ambas versiones fueran en realidad idénticas. Si el p-valor es menor que el alfa elegido (normalmente 0,05 para 95% de confianza), puedes calificar el resultado de estadísticamente significativo.

Cómo usar esta calculadora

Introduce los datos brutos de tu plataforma de tests — visitantes y conversiones por variante — y elige un nivel de confianza.

  1. Introduce los visitantes y conversiones del grupo de control.
  2. Introduce los visitantes y conversiones del grupo de la variante.
  3. Elige 95% para tests de producto estándar, 99% para decisiones de alto riesgo.
  4. Lee el veredicto — y no lo mires antes de terminar el test.

Fórmulas

El test z de dos proporciones combina ambas muestras para estimar una varianza común y mide a cuántos errores estándar están separadas las dos proporciones.

p_A = c_A ÷ n_A    p_B = c_B ÷ n_B

p_pool = (c_A + c_B) ÷ (n_A + n_B)

SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )

Z = (p_B − p_A) ÷ SE

Lift % = ( (p_B − p_A) ÷ p_A ) × 100

  • n_A, n_B — visitantes del control y de la variante.
  • c_A, c_B — conversiones en control y variante.
  • Z — distancia estandarizada entre las dos tasas; convertida a p-valor bilateral mediante la CDF normal estándar.

Referencia de niveles de confianza

Elige el nivel de confianza acorde al riesgo de equivocarte en esta decisión.

Confianza Z crítico (bilateral) p-valor máximo Cuándo usar
90%1.6450.10Lecturas exploratorias / direccionales
95%1.9600.05Por defecto en la mayoría de tests de producto
99%2.5760.01Cambios críticos de UX o precios

Test bilateral; supone visitantes independientes y resultado binario (convirtió / no convirtió).

Preguntas frecuentes

¿Cómo de grande debe ser mi test?

Más grande es siempre mejor, pero como regla general quieres al menos 100 conversiones por variante antes de leer resultados. Menos que eso es demasiado ruidoso, sin importar el p-valor.

¿Qué es un p-valor?

La probabilidad de que la diferencia observada (o mayor) ocurra por azar, si las dos versiones fueran igualmente buenas. Un p-valor de 0,03 significa un 3% de probabilidad de que sea casualidad.

¿Por qué no debo mirar antes del final?

Mirar repetidamente infla los falsos positivos. Cada mirada es otra oportunidad para que el ruido cruce el umbral. Decide el tamaño muestral por adelantado y solo cierra el test cuando lo alcance.

¿Es suficiente el 95% de confianza?

Para la mayoría de cambios de producto, sí. Para precios, checkout o cualquier cosa que afecte ingresos a escala, sube al 99%. El coste de equivocarse es mucho mayor ahí.

El resultado es significativo pero el lift es minúsculo — ¿debo lanzar?

Significativo ≠ relevante. Con muestras enormes, un lift del 0,2% puede ser significativo pero no merecer el esfuerzo de ingeniería. Compara el lift con el coste del cambio.

¿Y si mi test nunca alcanza la significancia?

O el efecto es demasiado pequeño para importar, o necesitas más tráfico. Define un efecto mínimo detectable (MDE) antes de empezar; si no lo alcanzas en un plazo razonable, el test no tiene respuesta a tu escala.