A/B-test-significantie-calculator
Twee-proporties-z-test voor split-tests, met p-waarde, lift en betrouwbaarheidsverdict.
Wat deze calculator je vertelt
Een A/B-test vergelijkt twee versies van een pagina of ervaring om te zien welke beter presteert. De uitdaging is echte verschillen onderscheiden van willekeurige ruis: bij kleine steekproeven kan vrijwel elk verschil op een winnaar lijken. De z-toets voor twee proporties beantwoordt de vraag 'hoe waarschijnlijk is het dat dit verschil louter toeval is?' Het resultaat is een p-waarde — de kans dat je een verschil van deze omvang of groter zou zien als beide versies in werkelijkheid identiek waren. Ligt de p-waarde onder je gekozen alfa (meestal 0,05 voor 95% betrouwbaarheid), dan mag je het resultaat statistisch significant noemen.
Hoe gebruik je deze calculator
Vul de ruwe aantallen uit je testplatform in — bezoekers en conversies per arm — en kies een betrouwbaarheidsniveau.
- Voer de bezoekers en conversies van de controlegroep in.
- Voer de bezoekers en conversies van de variantgroep in.
- Kies 95% voor standaard producttests, 99% voor risicovolle beslissingen.
- Lees het oordeel — en gluur niet voordat de test is afgelopen.
Formules
De z-toets voor twee proporties bundelt beide steekproeven om een gemeenschappelijke variantie te schatten en meet vervolgens hoeveel standaardfouten de twee proporties uit elkaar liggen.
p_A = c_A ÷ n_A p_B = c_B ÷ n_B
p_pool = (c_A + c_B) ÷ (n_A + n_B)
SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )
Z = (p_B − p_A) ÷ SE
Lift % = ( (p_B − p_A) ÷ p_A ) × 100
- n_A, n_B — bezoekers in controle en variant.
- c_A, c_B — conversies in controle en variant.
- Z — gestandaardiseerde afstand tussen de twee percentages; omgezet naar een tweezijdige p-waarde via de standaardnormale CDF.
Betrouwbaarheidsniveau-referentie
Kies het betrouwbaarheidsniveau dat past bij het risico dat je bij deze beslissing fout zit.
| Betrouwbaarheid | Z-drempel (tweezijdig) | Maximale p-waarde | Wanneer te gebruiken |
|---|---|---|---|
| 90% | 1.645 | 0.10 | Verkennend / richtinggevend lezen |
| 95% | 1.960 | 0.05 | Standaard voor de meeste producttests |
| 99% | 2.576 | 0.01 | Belangrijke UX- of prijswijzigingen |
Tweezijdige toets; veronderstelt onafhankelijke bezoekers en een binaire uitkomst (geconverteerd / niet geconverteerd).
Veelgestelde vragen
Hoe groot moet mijn test zijn?
Groter is altijd beter, maar als vuistregel wil je minstens 100 conversies per arm voordat je resultaten leest. Alles kleiner is te ruisig, ongeacht de p-waarde.
Wat is een p-waarde?
De kans dat het verschil dat je ziet (of groter) door toeval optreedt als beide versies even goed waren. Een p-waarde van 0,03 betekent dat er 3% kans is dat het resultaat een toevalstreffer is.
Waarom mag ik niet gluren voor het einde?
Herhaaldelijk controleren blaast vals-positieven op. Elke gluur is weer een kans dat ruis de drempel overschrijdt. Bepaal vooraf een steekproefgrootte en lees de test pas af als die is bereikt.
Is 95% betrouwbaarheid genoeg?
Voor de meeste productwijzigingen wel. Voor prijzen, checkout of alles wat omzet op grote schaal beïnvloedt, ga naar 99%. De prijs van een verkeerde keuze is daar veel hoger.
Mijn resultaat is significant maar de lift is minimaal — moet ik live gaan?
Significant ≠ betekenisvol. Bij enorme steekproeven kan een lift van 0,2% significant zijn maar de engineering of het risico om live te gaan niet waard. Vergelijk de lift met de kosten van de wijziging.
Wat als mijn test nooit significantie bereikt?
Of het effect is te klein om uit te maken, of je hebt meer verkeer nodig. Bepaal vóór de start een minimaal detecteerbaar effect (MDE); kun je dat niet binnen een redelijke termijn bereiken, dan is de test op jouw schaal onbeantwoordbaar.