La mort des bonnes pratiques des tests A/B

Des règles bâties sur la rareté

Tester une seule variable à la fois. Attendre 200 conversions par bras. Faire rouler le test au moins deux semaines pour absorber l'effet du jour de la semaine. Ne pas regarder les données en cours de route. Déclarer un gagnant seulement à 95 % de signification.

Ce n'étaient pas de mauvaises règles. C'étaient les bonnes pour un marché où produire chaque variante d'annonce coûtait de l'argent réel. Un tournage vidéo, c'était une ligne budgétaire. Une page de destination, c'était un sprint de designer et de développeur. Tester prudemment, déclarer un gagnant seulement quand les données l'ont mérité.

Cette structure de coût a disparu. Une marketeuse avec un siège Adobe Firefly et un Meta Advantage+ livre 50 variantes pour le prix d'un café. Les tests de référence Meta Advantage+ 2026 montrent que les variantes générées par l'IA livrent entre 22 et 34 pour cent de plus de ROAS que les créatifs produits statiquement, sur une fenêtre de 90 jours. eMarketer projette que les dépenses publicitaires américaines pilotées par l'IA atteindront 57 milliards de dollars en 2026, soit environ 12 pour cent du marché publicitaire américain total.

La contrainte s'est déplacée. Elle n'est plus de produire la variante. Elle est d'apprendre quelle variante fonctionne assez vite pour consacrer le reste du trimestre au gagnant.

Ce que les plateformes viennent de livrer

Les plateformes d'expérimentation l'ont senti. En janvier 2026, Everstone Capital a annoncé la fusion de VWO et d'AB Tasty, créant une entreprise combinée de 100 millions de dollars d'ARR avec 4 000 clients. Les deux avaient des moteurs bayésiens. Les deux avaient des modes bandits. Ni l'une ni l'autre n'y avait grandi assez vite seule.

Amplitude a poussé les bandits manchots dans Amplitude Experiment. L'implémentation utilise l'échantillonnage de Thompson, réalloue le trafic toutes les heures ou tous les jours, et exige un minimum de 100 expositions par variante. Aucune autre méthodologie statistique n'est offerte. Statsig, fondée par d'anciens ingénieurs d'expérimentation de Facebook, fait rouler la couche de tests d'OpenAI, de Notion et d'Atlassian. Son produit positionne les bandits comme défaut et les tests séquentiels fréquentistes comme repli pour les cas qui exigent un contrôle d'erreur propre.

Quarante et un pour cent des programmes de CRO faisaient rouler des cadres bayésiens en 2026, contre 18 pour cent en 2022. Les équipes bayésiennes rapportent des durées de test 14 pour cent plus courtes, avec des taux de réussite similaires. La règle des deux semaines de pur A/B n'est interdite nulle part. Elle est simplement contournée.

La mort discrète du fréquentisme en marketing

L'argument n'est pas méthodologique. Il est structurel. Le test A/B fréquentiste gagne sa place quand le coût de faire rouler la mauvaise variante pendant toute la durée du test est élevé par rapport au coût d'attendre la puissance statistique. Ce compromis était réel en 2015. Il ne l'est plus en 2026 pour la plupart des décisions marketing.

Quand les variantes sont quasi gratuites, le coût marginal d'un bandit qui réalloue vers le meneur dès le jour trois est la petite perte statistique liée au fait de tuer des variantes avant la signification classique. Le bénéfice marginal est deux semaines de budget supplémentaire braqué sur les variantes qui fonctionnent. Un bandit qui se trompe 5 pour cent du temps et réalloue vite bat un test A/B qui a raison 95 pour cent du temps et ne réalloue jamais.

Les méthodes fréquentistes ne disparaissent pas. Elles restent le bon choix pour des lancements de produit où une seule variante sera déployée pendant un an, pour des tests de prix où la confiance du client est en jeu, et pour toute décision qui exige une estimation ponctuelle défendable du lift dans un deck pour le CFO. Mais la masse des décisions marketing, le créatif d'annonce, le hero de la page de destination, l'objet d'infolettre, l'heure d'envoi, aucune n'exige ce niveau de rigueur. Elles ont besoin d'une réallocation rapide contre une référence mouvante. Les bandits font cela. Le A/B ne le fait pas.

La firme en gestion de patrimoine ne peut pas attendre six semaines

Les maths sur lesquelles nous butions en construisant LeadLord ont forcé ce virage. Une firme en gestion de patrimoine n'a pas six semaines pour un A/B propre sur une seule annonce. Elle a un trimestre pour remplir les sièges d'un webinaire. Le système doit rouler en direct : livrer 30 variantes le lundi, tuer la moitié inférieure dès le jour trois, doubler la mise sur le quartile supérieur, retirer le quartile suivant vers le jour sept. Ce n'est pas un test A/B. C'est un bandit manchot avec des contraintes de conformité. Les bonnes pratiques sur lesquelles nous avons grandi supposent un marché qui n'existe plus.

Le mélange de compétences qui paie vraiment

Une équipe de croissance en 2018 avait besoin d'un responsable CRO, d'un rédacteur, et d'un designer. Le goulot d'étranglement était la production. Il est maintenant l'apprentissage.

Le responsable de croissance qui vaut la peine d'être embauché en 2026 conçoit des expériences plutôt qu'il ne les fait rouler. Il rédige le plan de test : hypothèse, segment, métrique, cadence de réallocation, critères d'arrêt, plafond de dépense, garde-fous de conformité. Il connaît la différence entre l'epsilon-glouton et l'échantillonnage de Thompson assez bien pour choisir le bon entre un entonnoir de webinaire et un courriel de rétention. Il lit les sorties d'attribution à travers une pile de mesure fragmentée depuis iOS 14 et sait dire à l'équipe quels lifts mériter sa confiance.

Le rédacteur et la designer comptent moins parce que le modèle écrit les variantes. La personne qui lit les variantes compte plus. Une directrice de création qui peut expliquer pourquoi le segment A a réagi à un angle de transparence sur les frais alors que le segment B a réagi à un angle d'efficience fiscale vaut plus que celle qui défend un concept hero unique.

Les agences bâties autour de revues de tests hebdomadaires et d'appels d'approbation de créatif avant lancement travaillent à partir du vieil organigramme. Elles perdent des budgets au profit d'équipes internes qui font rouler des bandits et ne refilent à l'agence que les gagnants.

Ce qu'il faut surveiller

La première chose à surveiller, c'est de savoir si les plateformes d'expérimentation se différencient sur les maths de bandit ou s'effondrent dans une réallocation banalisée. Si l'échantillonnage de Thompson devient une simple case à cocher, la valeur se déplace vers la couche supérieure : conception d'expérience, modélisation d'attribution, orchestration multi-plateforme.

La deuxième, ce sont les régulateurs. Les bandits fonctionnent en réallouant le trafic vers les gagnants pendant qu'un test reste non concluant. Dans une industrie réglementée, cela signifie qu'une équipe de conformité doit approuver des variantes qui n'atteindront peut-être jamais la signification statistique individuellement. Les cadres pour cette approbation n'existent pas encore. Les équipes qui les écriront en premier fixeront la norme pour la prochaine décennie.

Dans cet article