Calculateur de significativité de test A/B
Test z à deux proportions pour les split tests, avec p-valeur, lift et verdict de confiance.
Ce que ce calculateur vous dit
Un test A/B compare deux versions d'une page ou d'une expérience pour voir laquelle performe le mieux. Le défi est de séparer les vraies différences du bruit aléatoire — quand vos chiffres divergent, est-ce un effet réel ou simplement de la chance ? Ce calculateur lance un test z standard à deux proportions sur les comptages bruts et vous dit si le résultat passe le seuil de confiance que vous choisissez.
Comment utiliser ce calculateur
Branchez les comptages bruts depuis votre plateforme de test — visiteurs et conversions par bras — et choisissez un niveau de confiance.
- Entrez les visiteurs et conversions du groupe de contrôle.
- Entrez les visiteurs et conversions du groupe variante.
- Choisissez 95 % pour des tests produit standard, 99 % pour des décisions à fort enjeu.
- Lisez le verdict — et ne le regardez pas avant la fin du test.
Formules
Le test z à deux proportions met les deux échantillons en commun pour estimer une variance commune, puis mesure de combien d'erreurs standard les deux proportions sont éloignées.
p_A = c_A ÷ n_A p_B = c_B ÷ n_B
p_pool = (c_A + c_B) ÷ (n_A + n_B)
SE = √( p_pool × (1 − p_pool) × (1/n_A + 1/n_B) )
Z = (p_B − p_A) ÷ SE
Gain % = ( (p_B − p_A) ÷ p_A ) × 100
- n_A, n_B — visiteurs en contrôle et en variante.
- c_A, c_B — conversions en contrôle et en variante.
- Z — distance standardisée entre les deux taux ; convertie en p-valeur bilatérale via la CDF normale standard.
Référence des niveaux de confiance
Choisissez le niveau de confiance qui correspond au risque de se tromper sur cette décision.
| Confiance | Seuil Z (bilatéral) | p-valeur max | Quand utiliser |
|---|---|---|---|
| 90% | 1.645 | 0.10 | Lectures exploratoires / directionnelles |
| 95% | 1.960 | 0.05 | Défaut pour la plupart des tests produit |
| 99% | 2.576 | 0.01 | Changements UX ou tarifaires à fort enjeu |
Test bilatéral ; suppose des visiteurs indépendants et un résultat binaire (converti / pas converti).
Questions fréquentes
Quelle taille mon test doit-il avoir ?
Plus c'est gros, mieux c'est, mais en règle générale visez au moins 100 conversions par bras avant de lire les résultats. Plus petit, c'est trop bruité ; plus gros donne des intervalles plus serrés.
Qu'est-ce qu'une p-valeur ?
La probabilité que la différence observée (ou plus grande) survienne par hasard si les deux versions étaient également bonnes. Une p-valeur de 0,03 veut dire qu'il n'y a que 3 % de chances que cette différence soit du bruit.
Pourquoi ne pas regarder avant la fin ?
Vérifier de façon répétée gonfle les faux positifs. Chaque coup d'œil est une chance de plus pour le bruit de franchir le seuil. Décidez d'une taille d'échantillon en amont et tenez-vous-y, ou utilisez des tests séquentiels qui contrôlent ce risque.
95 % de confiance, c'est suffisant ?
Pour la plupart des changements produit, oui. Pour le tarif, le checkout ou tout ce qui touche le revenu à grande échelle, passez à 99 %. Le coût d'une mauvaise décision est bien plus élevé.
Mon résultat est significatif mais le lift est minuscule — faut-il pousser ?
Significatif ≠ utile. Avec d'énormes échantillons, un lift de 0,2 % peut être significatif sans valoir l'effort ou le risque de mise en production. Comparez le lift au coût du changement.
Et si mon test n'atteint jamais la significativité ?
Soit l'effet est trop petit pour compter, soit il faut plus de trafic. Décidez d'un effet minimal détectable (MDE) avant le lancement ; si vous ne pouvez pas l'atteindre, cherchez un effet plus gros à tester.