PK Systems PK Systems
Marketing

Calculadora de Significância de Teste A/B

Teste-Z de duas proporções para testes A/B, com p-valor, lift e veredito de confiança.

Calculadora de Significância de Teste A/B

Resultado

Informe os dois grupos para avaliar o teste.

O que esta calculadora informa

Um teste A/B compara duas versões de uma página ou experiência para ver qual tem melhor desempenho. O desafio é separar diferenças reais de ruído aleatório: com amostras pequenas, quase qualquer diferença parece vencedora. O teste-z de duas proporções responde 'qual a probabilidade dessa diferença ser apenas acaso?' O resultado é um p-valor — a probabilidade de observar uma diferença pelo menos tão grande quanto essa se as duas versões fossem na verdade idênticas. Se o p-valor for menor que o alfa escolhido (tipicamente 0,05 para 95% de confiança), você pode considerar o resultado estatisticamente significativo.

Como usar esta calculadora

Insira os números brutos da sua plataforma de testes — visitantes e conversões por variante — e escolha o nível de confiança.

  1. Insira visitantes e conversões do grupo de controle.
  2. Insira visitantes e conversões do grupo da variante.
  3. Escolha 95% para testes de produto padrão, 99% para decisões de alto risco.
  4. Leia o veredito — e não espie antes do fim do teste.

Fórmulas

O teste-z de duas proporções junta as duas amostras para estimar uma variância comum e mede quantos erros padrão separam as duas proporções.

p_A = c_A ÷ n_A    p_B = c_B ÷ n_B

p_pool = (c_A + c_B) ÷ (n_A + n_B)

SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )

Z = (p_B − p_A) ÷ SE

Lift % = ( (p_B − p_A) ÷ p_A ) × 100

  • n_A, n_B — visitantes do controle e da variante.
  • c_A, c_B — conversões no controle e na variante.
  • Z — distância padronizada entre as duas taxas; convertida em p-valor bilateral pela CDF normal-padrão.

Referência de níveis de confiança

Escolha o nível de confiança que combina com o risco de errar essa decisão.

Confiança Z crítico (bilateral) p-valor máximo Quando usar
90%1.6450.10Leituras exploratórias / direcionais
95%1.9600.05Padrão para a maioria dos testes de produto
99%2.5760.01Mudanças críticas de UX ou preço

Teste bilateral; pressupõe visitantes independentes e desfecho binário (converteu / não converteu).

Perguntas frequentes

Que tamanho meu teste precisa ter?

Maior é sempre melhor, mas como regra geral, você quer pelo menos 100 conversões por variação antes de ler resultados. Menos do que isso é ruído demais, independentemente do p-valor.

O que é um p-valor?

A probabilidade da diferença observada (ou maior) ocorrer por acaso, caso as duas versões fossem igualmente boas. Um p-valor de 0,03 significa 3% de chance de ser obra do acaso.

Por que não devo espiar antes do fim?

Espiar repetidamente inflaciona falsos positivos. Cada olhada é mais uma chance do ruído cruzar o limiar. Defina o tamanho da amostra antes e só chame o teste quando chegar lá.

95% de confiança é suficiente?

Para a maioria das mudanças de produto, sim. Para preço, checkout ou qualquer coisa que afete receita em escala, vá para 99%. O custo do erro é muito maior nesses casos.

Meu resultado é significativo, mas o lift é minúsculo — devo lançar?

Significativo ≠ relevante. Com amostras enormes, um lift de 0,2% pode ser significativo mas não justificar o esforço de engenharia. Compare o lift com o custo da mudança.

E se meu teste nunca atingir significância?

Ou o efeito é pequeno demais para importar, ou você precisa de mais tráfego. Defina um efeito mínimo detectável (MDE) antes de começar; se não der para alcançar em um prazo razoável, o teste não tem resposta na sua escala.