Calcolatore di Significatività A/B Test
Test z a due proporzioni per split test, con p-value, lift e verdetto di confidenza.
Cosa ti dice questo calcolatore
Un A/B test confronta due versioni di una pagina o esperienza per vedere quale funziona meglio. La sfida è separare le differenze reali dal rumore casuale: con campioni piccoli, quasi ogni differenza può sembrare un vincitore. Il test z a due proporzioni risponde alla domanda "quanto è probabile che questa differenza sia solo un caso?". Il risultato è un p-value — la probabilità di osservare un divario così grande o maggiore se le due versioni fossero in realtà identiche. Se il p-value è inferiore all'alpha scelto (tipicamente 0,05 per il 95% di confidenza), puoi considerare il risultato statisticamente significativo.
Come usare questo calcolatore
Inserisci i conteggi grezzi dalla tua piattaforma di test — visitatori e conversioni per braccio — e scegli un livello di confidenza.
- Inserisci visitatori e conversioni del gruppo di controllo.
- Inserisci visitatori e conversioni del gruppo variante.
- Scegli 95% per i test di prodotto standard, 99% per le decisioni ad alto rischio.
- Leggi il verdetto — e non sbirciare prima della fine del test.
Formule
Il test z a due proporzioni mette in pool entrambi i campioni per stimare una varianza comune, poi misura quanti errori standard separano le due proporzioni.
p_A = c_A ÷ n_A p_B = c_B ÷ n_B
p_pool = (c_A + c_B) ÷ (n_A + n_B)
SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )
Z = (p_B − p_A) ÷ SE
Lift % = ( (p_B − p_A) ÷ p_A ) × 100
- n_A, n_B — visitatori in controllo e variante.
- c_A, c_B — conversioni in controllo e variante.
- Z — distanza standardizzata tra i due tassi; convertita in p-value a due code tramite la CDF normale standard.
Riferimento livello di confidenza
Scegli il livello di confidenza che corrisponde al rischio di sbagliare su questa decisione.
| Confidenza | Soglia Z (a due code) | p-value massimo | Quando usarlo |
|---|---|---|---|
| 90% | 1.645 | 0.10 | Letture esplorative / direzionali |
| 95% | 1.960 | 0.05 | Predefinito per la maggior parte dei test di prodotto |
| 99% | 2.576 | 0.01 | Modifiche UX o di prezzo ad alto impatto |
Test a due code; assume visitatori indipendenti e un esito binario (convertito / non convertito).
Domande frequenti
Quanto deve essere grande il mio test?
Più grande è meglio, ma come regola generale servono almeno 100 conversioni per braccio prima di leggere i risultati. Qualsiasi cosa più piccola è troppo rumorosa, indipendentemente dal p-value.
Cos'è un p-value?
La probabilità che la differenza osservata (o maggiore) si verifichi per caso se le due versioni fossero ugualmente buone. Un p-value di 0,03 significa che c'è il 3% di probabilità che il risultato sia frutto del caso.
Perché non dovrei sbirciare prima della fine?
Controllare ripetutamente gonfia i falsi positivi. Ogni sbirciata è un'altra possibilità che il rumore superi la soglia. Decidi una dimensione del campione in anticipo e chiudi il test solo quando l'hai raggiunta.
Il 95% di confidenza è sufficiente?
Per la maggior parte delle modifiche di prodotto, sì. Per prezzi, checkout o qualsiasi cosa che incida sui ricavi su larga scala, sali al 99%. Il costo di una decisione sbagliata è molto più alto in quei casi.
Il mio risultato è significativo ma il lift è minimo — devo rilasciarlo?
Significativo ≠ rilevante. Con campioni enormi, un lift dello 0,2% può essere significativo ma non valere lo sforzo ingegneristico o il rischio di rilascio. Confronta il lift con il costo della modifica.
E se il mio test non raggiunge mai la significatività?
O l'effetto è troppo piccolo per contare, o ti serve più traffico. Decidi un effetto minimo rilevabile (MDE) prima di partire; se non puoi raggiungerlo in una finestra ragionevole, il test è irrisolvibile alla tua scala.