PK Systems PK Systems
Marketing

Calcolatore di Significatività A/B Test

Test z a due proporzioni per split test, con p-value, lift e verdetto di confidenza.

Calcolatore di Significatività A/B Test

Risultato

Inserisci entrambi i gruppi per valutare il test.

Cosa ti dice questo calcolatore

Un A/B test confronta due versioni di una pagina o esperienza per vedere quale funziona meglio. La sfida è separare le differenze reali dal rumore casuale: con campioni piccoli, quasi ogni differenza può sembrare un vincitore. Il test z a due proporzioni risponde alla domanda "quanto è probabile che questa differenza sia solo un caso?". Il risultato è un p-value — la probabilità di osservare un divario così grande o maggiore se le due versioni fossero in realtà identiche. Se il p-value è inferiore all'alpha scelto (tipicamente 0,05 per il 95% di confidenza), puoi considerare il risultato statisticamente significativo.

Come usare questo calcolatore

Inserisci i conteggi grezzi dalla tua piattaforma di test — visitatori e conversioni per braccio — e scegli un livello di confidenza.

  1. Inserisci visitatori e conversioni del gruppo di controllo.
  2. Inserisci visitatori e conversioni del gruppo variante.
  3. Scegli 95% per i test di prodotto standard, 99% per le decisioni ad alto rischio.
  4. Leggi il verdetto — e non sbirciare prima della fine del test.

Formule

Il test z a due proporzioni mette in pool entrambi i campioni per stimare una varianza comune, poi misura quanti errori standard separano le due proporzioni.

p_A = c_A ÷ n_A    p_B = c_B ÷ n_B

p_pool = (c_A + c_B) ÷ (n_A + n_B)

SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )

Z = (p_B − p_A) ÷ SE

Lift % = ( (p_B − p_A) ÷ p_A ) × 100

  • n_A, n_B — visitatori in controllo e variante.
  • c_A, c_B — conversioni in controllo e variante.
  • Z — distanza standardizzata tra i due tassi; convertita in p-value a due code tramite la CDF normale standard.

Riferimento livello di confidenza

Scegli il livello di confidenza che corrisponde al rischio di sbagliare su questa decisione.

Confidenza Soglia Z (a due code) p-value massimo Quando usarlo
90%1.6450.10Letture esplorative / direzionali
95%1.9600.05Predefinito per la maggior parte dei test di prodotto
99%2.5760.01Modifiche UX o di prezzo ad alto impatto

Test a due code; assume visitatori indipendenti e un esito binario (convertito / non convertito).

Domande frequenti

Quanto deve essere grande il mio test?

Più grande è meglio, ma come regola generale servono almeno 100 conversioni per braccio prima di leggere i risultati. Qualsiasi cosa più piccola è troppo rumorosa, indipendentemente dal p-value.

Cos'è un p-value?

La probabilità che la differenza osservata (o maggiore) si verifichi per caso se le due versioni fossero ugualmente buone. Un p-value di 0,03 significa che c'è il 3% di probabilità che il risultato sia frutto del caso.

Perché non dovrei sbirciare prima della fine?

Controllare ripetutamente gonfia i falsi positivi. Ogni sbirciata è un'altra possibilità che il rumore superi la soglia. Decidi una dimensione del campione in anticipo e chiudi il test solo quando l'hai raggiunta.

Il 95% di confidenza è sufficiente?

Per la maggior parte delle modifiche di prodotto, sì. Per prezzi, checkout o qualsiasi cosa che incida sui ricavi su larga scala, sali al 99%. Il costo di una decisione sbagliata è molto più alto in quei casi.

Il mio risultato è significativo ma il lift è minimo — devo rilasciarlo?

Significativo ≠ rilevante. Con campioni enormi, un lift dello 0,2% può essere significativo ma non valere lo sforzo ingegneristico o il rischio di rilascio. Confronta il lift con il costo della modifica.

E se il mio test non raggiunge mai la significatività?

O l'effetto è troppo piccolo per contare, o ti serve più traffico. Decidi un effetto minimo rilevabile (MDE) prima di partire; se non puoi raggiungerlo in una finestra ragionevole, il test è irrisolvibile alla tua scala.