A/B-Test-Signifikanz-Rechner
Zwei-Anteils-z-Test für Split-Tests, mit p-Wert, Lift und Konfidenz-Verdikt.
Was dieser Rechner dir sagt
Ein A/B-Test vergleicht zwei Versionen einer Seite oder Erfahrung, um zu sehen, welche besser performt. Die Herausforderung besteht darin, echte Unterschiede vom Zufallsrauschen zu trennen: Bei kleinen Stichproben kann fast jeder Unterschied wie ein Gewinner aussehen. Der Zwei-Stichproben-z-Test beantwortet die Frage „Wie wahrscheinlich ist es, dass dieser Unterschied nur Zufall ist?“ Das Ergebnis ist ein p-Wert – die Wahrscheinlichkeit, eine derart große oder größere Differenz zu sehen, falls beide Versionen tatsächlich identisch wären. Liegt der p-Wert unter dem gewählten Alpha (typischerweise 0,05 für 95 % Konfidenz), darfst du das Ergebnis statistisch signifikant nennen.
So nutzen Sie diesen Rechner
Trage die Rohzahlen aus deiner Testplattform ein – Besucher und Conversions je Gruppe – und wähle ein Konfidenzniveau.
- Gib Besucher und Conversions der Kontrollgruppe ein.
- Gib Besucher und Conversions der Variantengruppe ein.
- Wähle 95 % für klassische Produkttests, 99 % für risikoreiche Entscheidungen.
- Lies das Urteil ab – und linse nicht hin, bevor der Test beendet ist.
Formeln
Der Zwei-Stichproben-z-Test poolt beide Stichproben, um eine gemeinsame Varianz zu schätzen, und misst dann, wie viele Standardfehler die beiden Anteile auseinanderliegen.
p_A = c_A ÷ n_A p_B = c_B ÷ n_B
p_pool = (c_A + c_B) ÷ (n_A + n_B)
SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )
Z = (p_B − p_A) ÷ SE
Uplift % = ( (p_B − p_A) ÷ p_A ) × 100
- n_A, n_B – Besucher in Kontrolle und Variante.
- c_A, c_B – Conversions in Kontrolle und Variante.
- Z – standardisierter Abstand zwischen den beiden Raten; über die Standardnormal-Verteilungsfunktion in einen zweiseitigen p-Wert umgerechnet.
Konfidenzniveau-Referenz
Wähle das Konfidenzniveau, das zum Risiko einer Fehlentscheidung passt.
| Konfidenz | Z-Schwelle (zweiseitig) | Maximaler p-Wert | Wann zu verwenden |
|---|---|---|---|
| 90% | 1.645 | 0.10 | Explorative / richtungsweisende Auswertungen |
| 95% | 1.960 | 0.05 | Standard für die meisten Produkttests |
| 99% | 2.576 | 0.01 | UX- oder Preisänderungen mit hohem Einsatz |
Zweiseitiger Test; setzt unabhängige Besucher und ein binäres Ergebnis (konvertiert / nicht konvertiert) voraus.
Häufig gestellte Fragen
Wie groß muss mein Test sein?
Größer ist immer besser, aber als Faustregel solltest du mindestens 100 Conversions pro Gruppe haben, bevor du Ergebnisse interpretierst. Alles darunter ist unabhängig vom p-Wert zu verrauscht.
Was ist ein p-Wert?
Die Wahrscheinlichkeit, dass die beobachtete Differenz (oder eine größere) zufällig auftritt, falls beide Versionen gleich gut sind. Ein p-Wert von 0,03 bedeutet eine 3-prozentige Wahrscheinlichkeit, dass das Ergebnis ein Zufallstreffer ist.
Warum sollte ich nicht vor dem Ende reinschauen?
Wiederholtes Reinschauen erhöht die Rate falsch positiver Ergebnisse. Jeder Blick ist eine weitere Chance, dass das Rauschen die Schwelle überschreitet. Lege die Stichprobengröße vorab fest und werte den Test erst aus, wenn sie erreicht ist.
Reichen 95 % Konfidenz aus?
Für die meisten Produktänderungen ja. Für Preise, Checkout oder alles, was Umsatz im großen Stil betrifft, geh auf 99 %. Die Kosten einer Fehlentscheidung sind dort viel höher.
Mein Ergebnis ist signifikant, aber der Uplift ist winzig – soll ich ausrollen?
Signifikant ≠ relevant. Bei riesigen Stichproben kann ein Uplift von 0,2 % signifikant sein und sich trotzdem nicht für den Engineering-Aufwand oder das Risiko lohnen. Vergleiche den Uplift mit den Kosten der Änderung.
Was, wenn mein Test nie Signifikanz erreicht?
Entweder ist der Effekt zu klein, um relevant zu sein, oder du brauchst mehr Traffic. Lege vor dem Start einen minimal nachweisbaren Effekt (MDE) fest; wenn du ihn in einem vernünftigen Zeitfenster nicht erreichst, ist der Test in deiner Größenordnung nicht beantwortbar.