PK Systems PK Systems
Marketing

A/B-Test-Signifikanz-Rechner

Zwei-Anteils-z-Test für Split-Tests, mit p-Wert, Lift und Konfidenz-Verdikt.

A/B-Test-Signifikanz-Rechner

Ergebnis

Gib beide Gruppen ein, um den Test auszuwerten.

Was dieser Rechner dir sagt

Ein A/B-Test vergleicht zwei Versionen einer Seite oder Erfahrung, um zu sehen, welche besser performt. Die Herausforderung besteht darin, echte Unterschiede vom Zufallsrauschen zu trennen: Bei kleinen Stichproben kann fast jeder Unterschied wie ein Gewinner aussehen. Der Zwei-Stichproben-z-Test beantwortet die Frage „Wie wahrscheinlich ist es, dass dieser Unterschied nur Zufall ist?“ Das Ergebnis ist ein p-Wert – die Wahrscheinlichkeit, eine derart große oder größere Differenz zu sehen, falls beide Versionen tatsächlich identisch wären. Liegt der p-Wert unter dem gewählten Alpha (typischerweise 0,05 für 95 % Konfidenz), darfst du das Ergebnis statistisch signifikant nennen.

So nutzen Sie diesen Rechner

Trage die Rohzahlen aus deiner Testplattform ein – Besucher und Conversions je Gruppe – und wähle ein Konfidenzniveau.

  1. Gib Besucher und Conversions der Kontrollgruppe ein.
  2. Gib Besucher und Conversions der Variantengruppe ein.
  3. Wähle 95 % für klassische Produkttests, 99 % für risikoreiche Entscheidungen.
  4. Lies das Urteil ab – und linse nicht hin, bevor der Test beendet ist.

Formeln

Der Zwei-Stichproben-z-Test poolt beide Stichproben, um eine gemeinsame Varianz zu schätzen, und misst dann, wie viele Standardfehler die beiden Anteile auseinanderliegen.

p_A = c_A ÷ n_A    p_B = c_B ÷ n_B

p_pool = (c_A + c_B) ÷ (n_A + n_B)

SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )

Z = (p_B − p_A) ÷ SE

Uplift % = ( (p_B − p_A) ÷ p_A ) × 100

  • n_A, n_B – Besucher in Kontrolle und Variante.
  • c_A, c_B – Conversions in Kontrolle und Variante.
  • Z – standardisierter Abstand zwischen den beiden Raten; über die Standardnormal-Verteilungsfunktion in einen zweiseitigen p-Wert umgerechnet.

Konfidenzniveau-Referenz

Wähle das Konfidenzniveau, das zum Risiko einer Fehlentscheidung passt.

Konfidenz Z-Schwelle (zweiseitig) Maximaler p-Wert Wann zu verwenden
90%1.6450.10Explorative / richtungsweisende Auswertungen
95%1.9600.05Standard für die meisten Produkttests
99%2.5760.01UX- oder Preisänderungen mit hohem Einsatz

Zweiseitiger Test; setzt unabhängige Besucher und ein binäres Ergebnis (konvertiert / nicht konvertiert) voraus.

Häufig gestellte Fragen

Wie groß muss mein Test sein?

Größer ist immer besser, aber als Faustregel solltest du mindestens 100 Conversions pro Gruppe haben, bevor du Ergebnisse interpretierst. Alles darunter ist unabhängig vom p-Wert zu verrauscht.

Was ist ein p-Wert?

Die Wahrscheinlichkeit, dass die beobachtete Differenz (oder eine größere) zufällig auftritt, falls beide Versionen gleich gut sind. Ein p-Wert von 0,03 bedeutet eine 3-prozentige Wahrscheinlichkeit, dass das Ergebnis ein Zufallstreffer ist.

Warum sollte ich nicht vor dem Ende reinschauen?

Wiederholtes Reinschauen erhöht die Rate falsch positiver Ergebnisse. Jeder Blick ist eine weitere Chance, dass das Rauschen die Schwelle überschreitet. Lege die Stichprobengröße vorab fest und werte den Test erst aus, wenn sie erreicht ist.

Reichen 95 % Konfidenz aus?

Für die meisten Produktänderungen ja. Für Preise, Checkout oder alles, was Umsatz im großen Stil betrifft, geh auf 99 %. Die Kosten einer Fehlentscheidung sind dort viel höher.

Mein Ergebnis ist signifikant, aber der Uplift ist winzig – soll ich ausrollen?

Signifikant ≠ relevant. Bei riesigen Stichproben kann ein Uplift von 0,2 % signifikant sein und sich trotzdem nicht für den Engineering-Aufwand oder das Risiko lohnen. Vergleiche den Uplift mit den Kosten der Änderung.

Was, wenn mein Test nie Signifikanz erreicht?

Entweder ist der Effekt zu klein, um relevant zu sein, oder du brauchst mehr Traffic. Lege vor dem Start einen minimal nachweisbaren Effekt (MDE) fest; wenn du ihn in einem vernünftigen Zeitfenster nicht erreichst, ist der Test in deiner Größenordnung nicht beantwortbar.