Calculadora de Significância de Teste A/B
Teste-Z de duas proporções para testes A/B, com p-valor, lift e veredito de confiança.
O que esta calculadora informa
Um teste A/B compara duas versões de uma página ou experiência para ver qual tem melhor desempenho. O desafio é separar diferenças reais de ruído aleatório: com amostras pequenas, quase qualquer diferença parece vencedora. O teste-z de duas proporções responde 'qual a probabilidade dessa diferença ser apenas acaso?' O resultado é um p-valor — a probabilidade de observar uma diferença pelo menos tão grande quanto essa se as duas versões fossem na verdade idênticas. Se o p-valor for menor que o alfa escolhido (tipicamente 0,05 para 95% de confiança), você pode considerar o resultado estatisticamente significativo.
Como usar esta calculadora
Insira os números brutos da sua plataforma de testes — visitantes e conversões por variante — e escolha o nível de confiança.
- Insira visitantes e conversões do grupo de controle.
- Insira visitantes e conversões do grupo da variante.
- Escolha 95% para testes de produto padrão, 99% para decisões de alto risco.
- Leia o veredito — e não espie antes do fim do teste.
Fórmulas
O teste-z de duas proporções junta as duas amostras para estimar uma variância comum e mede quantos erros padrão separam as duas proporções.
p_A = c_A ÷ n_A p_B = c_B ÷ n_B
p_pool = (c_A + c_B) ÷ (n_A + n_B)
SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )
Z = (p_B − p_A) ÷ SE
Lift % = ( (p_B − p_A) ÷ p_A ) × 100
- n_A, n_B — visitantes do controle e da variante.
- c_A, c_B — conversões no controle e na variante.
- Z — distância padronizada entre as duas taxas; convertida em p-valor bilateral pela CDF normal-padrão.
Referência de níveis de confiança
Escolha o nível de confiança que combina com o risco de errar essa decisão.
| Confiança | Z crítico (bilateral) | p-valor máximo | Quando usar |
|---|---|---|---|
| 90% | 1.645 | 0.10 | Leituras exploratórias / direcionais |
| 95% | 1.960 | 0.05 | Padrão para a maioria dos testes de produto |
| 99% | 2.576 | 0.01 | Mudanças críticas de UX ou preço |
Teste bilateral; pressupõe visitantes independentes e desfecho binário (converteu / não converteu).
Perguntas frequentes
Que tamanho meu teste precisa ter?
Maior é sempre melhor, mas como regra geral, você quer pelo menos 100 conversões por variação antes de ler resultados. Menos do que isso é ruído demais, independentemente do p-valor.
O que é um p-valor?
A probabilidade da diferença observada (ou maior) ocorrer por acaso, caso as duas versões fossem igualmente boas. Um p-valor de 0,03 significa 3% de chance de ser obra do acaso.
Por que não devo espiar antes do fim?
Espiar repetidamente inflaciona falsos positivos. Cada olhada é mais uma chance do ruído cruzar o limiar. Defina o tamanho da amostra antes e só chame o teste quando chegar lá.
95% de confiança é suficiente?
Para a maioria das mudanças de produto, sim. Para preço, checkout ou qualquer coisa que afete receita em escala, vá para 99%. O custo do erro é muito maior nesses casos.
Meu resultado é significativo, mas o lift é minúsculo — devo lançar?
Significativo ≠ relevante. Com amostras enormes, um lift de 0,2% pode ser significativo mas não justificar o esforço de engenharia. Compare o lift com o custo da mudança.
E se meu teste nunca atingir significância?
Ou o efeito é pequeno demais para importar, ou você precisa de mais tráfego. Defina um efeito mínimo detectável (MDE) antes de começar; se não der para alcançar em um prazo razoável, o teste não tem resposta na sua escala.
EN
PT
ES