
Definieren Sie den Mindestdetektierbaren Effekt so, dass er wirtschaftlich relevant ist, nicht nur statistisch erreichbar. Wenn ein 1-Prozentpunkt-Uplift kaum Wert schafft, testen Sie nicht darauf. Schätzen Sie Basisrate und Varianz mit historischen Daten, simulieren Sie Szenarien und justieren Sie Traffic-Anteile. Ein SaaS-Team stellte fest, dass bei 3 Prozent Basiskonversion und einwöchiger Dauer nur Uplifts über 12 Prozent sinnvoll detektierbar waren, und bündelte danach Experimente statt sie zu zerstückeln.

Häufiges Nachschauen auf p-Werte erhöht die Fehlerquote. Nutzen Sie Alpha-Spending-Pläne, group-sequential Designs oder Bayes-Regeln, die Zwischenblicke erlauben, ohne die Irrtumswahrscheinlichkeit explodieren zu lassen. Legen Sie im Protokoll fest, wann und wie entschieden wird. Als ein Mobil-Startup stündlich prüfte, feierte es vermeintliche Siege, die am Wochenende verschwanden. Erst feste Zwischenanalysen und Korrekturen verhinderten falsche Jubelmeldungen und unnötige Rollbacks.

Bayesianische Ansätze liefern intuitive Aussagen wie die Wahrscheinlichkeit, dass Variante B besser ist als A, und erlauben evidenzgewichtete Entscheidungen bei kleinen Samples. Credible Intervals zeigen plausible Bandbreiten der Wirkung. In einem Pricing-Experiment half eine informative Prior basierend auf früheren Tests, ein wackliges Signal richtig einzuordnen und statt voreilig zu skalieren, kontrolliert weiterzulernen. Wichtig bleibt Transparenz: Annahmen offenlegen, Sensitivitäten prüfen, Alternativen dokumentieren.