Statistische Signifikanz im Marketing ‒ das sollten nicht nur Datenexperten kennen
Und dennoch: Nicht selten wird am Ende doch wieder aus dem Bauch heraus entschieden, was überhaupt versucht werden soll. Und selbst falls A/B-Tests verwendet werden, um etwa unterschiedliche Varianten einer Landingpage oder verschiedene CTA zu evaluieren, gibt es noch etliche Fallstricke bei der Interpretation der Ergebnisse.
Dieser Text ist daher ein Plädoyer, dass sich wirklich jede:r Marketingverantwortliche mit dem Prinzip der statistischen Signifikanz auseinandersetzen sollte ‒ und wie es beim Experimentieren mit Marketingmaßnahmen genutzt werden sollte.
Was ist statistische Signifikanz und warum ist sie wichtig?
„Wird ein statistisches Ergebnis als signifikant bezeichnet, so drückt dies aus, dass die Irrtumswahrscheinlichkeit, eine angenommene Hypothese treffe auch auf die Grundgesamtheit zu, nicht über einem festgelegten Niveau liegt“, so erklärt es zumindest Statista. Etwas einfacher ausgedrückt: Ist ein Zusammenhang, den man zum Beispiel durch eine Messung beobachtet hat, statistisch signifikant, dann tritt er in den gemessenen Daten (Stichprobe) nicht einfach zufällig auf, sondern ist verallgemeinerbar.
Damit wird auch schon klar, welchen Nutzen statistische Signifikanz bei der Entscheidungsfindung haben kann: Sie kann Zusammenhänge aufzeigen und dadurch Hinweise geben, wie sich das Drehen an bestimmten Stellschrauben auswirken kann. Im Grunde geht es also um das Gegenteil des Treffens von Entscheidungen aus einem Bauchgefühl heraus.
Wie berechnet man statistische Signifikanz?
Eine wichtige Rolle bei der Berechnung von statistischer Signifikanz spielt der Chi-Quadrat-Test, der erstmals im Jahr 1900 von dem britischen Mathematiker Karl Pearson beschrieben wurde. Ohne an dieser Stelle zu tief ins Detail zu gehen: Wie der Name schon vermuten lässt, spielt das Quadrieren der Daten eine wichtige Rolle, um so mögliche Variablen ‒ also die eben erwähnten Stellschrauben ‒ aufzuspüren.
Vorsicht, jetzt kommt eine Formel ‒ und zwar die, mit der in unserem Zusammenhang die Chi-Quadrat-Methode häufig zum Einsatz kommt:
statistisch signifikant = Wahrscheinlichkeit (p) < Schwellenwert (a)
In der Praxis bedeutet das: Das Ergebnis eines Tests oder eines Experiments ist dann statistisch signifikant, wenn die Wahrscheinlichkeit (p für Probability) für das Eintreten dieses Ergebnisses niedriger ist als der Schwellenwert (a, auch Alpha-Wert genannt). Das heißt schlicht und einfach: Statistisch signifikant bedeutet, dass die Wahrscheinlichkeit, dass das Ereignis rein zufällig eingetreten ist, äußerst gering sein dürfte. Stattdessen wurde es durch die untersuchte Stellschraube ausgelöst.
Warum ist statistische Signifikanz im Digital-Marketing fundamental?
Vermutlich ist nun schon klarer geworden, warum die Überprüfung von (Test-)Ergebnissen auf deren statistische Signifikanz gerade im Marketing so wichtig ist. Ein praktisches Beispiel hilft sicher dennoch weiter:
Das Marketing-Team fragt sich, ob ein bestimmtes Messaging (Messaging A) auf einer Landingpage besser funktioniert als ein anderes (Messaging B). Ein naheliegender Test wäre also, an der Stellschraube „Messaging“ zu drehen und zu schauen, wie sich das auf die Conversion-Rate auswirkt. Wenn sich durch diesen Test die Conversion tatsächlich verändert, will das Marketing-Team wissen, ob diese Veränderung nur Zufall war oder ob das Drehen an der Stellschraube entscheidend ‒ also statistisch signifikant ‒ war.
Wie wird statistische Signifikanz bei A/B-Tests eingesetzt?
Wie kann man nun das eben beschriebene Beispiel auf die Praxis übertragen? In sehr vielen Fällen ist hierfür ein A/B-Test sinnvoll. Denn: Wenn das Marketing-Team einfach nur auf Messaging B wechselt und dann schaut, wie sich die Conversion-Rate verändert, vergleicht man dadurch auch zwei unterschiedliche Zeitabschnitte ‒ und zwar vor und nach der Messaging-Änderung. Besser ist es daher, den Traffic, der auf die Landingpage kommt, aufzuteilen in Gruppe A, die das ursprüngliche Messaging A zu sehen bekommt, und Gruppe B, die das zu testende Messaging B sieht. Dieses Grundprinzip des A/B-Tests kann man auf viele Bereiche und Fragestellungen des modernen Marketings anwenden. Zum Beispiel könnte man die Auswirkungen des Drehens an Stellschrauben auf folgende Bereiche untersuchen:
- E-Mail: Klicks, Öffnungsraten, Engagement
- Antworten auf Benachrichtigungen
- Conversion-Rates von Push-Mitteilungen
- Kunden-Reaktionen und Surfverhalten
- Reaktionen auf Product-Launches
- Call-to-Action-Interaktionen (CTA) auf der Website
Die 6 Schritte, um statistische Signifikanz bei A/B-Tests anzuwenden
Wie funktioniert es nun in der Praxis, wenn man mit A/B-Tests Hinweise auf die wichtigen Stellschrauben finden möchte? Grundsätzlich sollte man immer die folgenden sechs Schritte befolgen:
1. Nullhypothese setzen
Die Nullhypothese besagt vereinfacht gesagt, dass das Drehen an der zu untersuchenden Stellschraube sich nicht auf das gewünschte Ergebnis auswirken wird. In unserem Beispiel: Der Wechsel zu Messaging B wird sich nicht auf die Conversion-Rate der Landingpage auswirken. Insofern beschreibt die Nullhypothese die Benchmark.
2. Alternativhypothese aufstellen
Das logische Gegenstück zur Nullhypothese: die Alternativhypothese, die die gewünschte Auswirkung beschreibt. Im Beispiel oben wäre das die Vermutung, dass Messaging B die Conversion-Rate signifikant steigern wird.
3. Prüfschwellenwert setzen
Als nächstes kommt der in der Formel erwähnte Schwellenwert a ins Spiel. Je niedriger man diesen Schwellenwert setzt, desto „strenger“ wird getestet, desto klarer muss der Zusammenhang zwischen Stellschraube und gewünschtem Ergebnis ausfallen, um als statistisch signifikant zu gelten. Die Faustregel lautet hierbei: Je umfangreicher die Stellschraube (wenn etwa die Auswirkungen einer vollständig umgebauten Landingpage untersucht werden sollen), desto höher sollte man den Schwellenwert wählen. Wenn es hingegen um eine kleinere Veränderung geht (wie ein anderer Bestätigungsbutton), dann sollte der Schwellenwert niedriger liegen.
4. A/B-Test durchführen
Dann wird es Zeit für den eigentlichen A/B-Test. An dieser Stelle teilt man den Traffic auf und schaut sich beide Varianten über einen gewissen Zeitraum an. Im oben beschriebenen Beispiel müsste man also lediglich am Ende des Testzeitraums vergleichen, ob die Gruppe mit Messaging A oder B die bessere Conversion-Rate erzielt hat. Zeigt B die besseren Ergebnisse, ist die Alternativhypothese zunächst bestätigt.
5. Chi-Quadrat-Methode anwenden
Und nun wird es wirklich ernst, denn jetzt kommt der Chi-Quadrat-Test zum Einsatz. Wer im Detail erfahren möchte, wie das funktioniert, kann sich anschauen, wie Scott Klemmer von der University of California in San Diego es erklärt.
In jedem Fall wird der Chi-Quadrat-Test klären, ob die Ergebnisse statistisch signifikant sind ‒ also ob die Wahrscheinlichkeit (p) tatsächlich kleiner ist als der Schwellenwert (a).
6. Ergebnisse in (sinnvolle) Maßnahmen übersetzen
Nehmen wir an, in unserem Beispiel hat Messaging B tatsächlich eine statistisch signifikante und zugleich bessere Conversion-Rate geliefert als Messaging A. In diesem Fall spricht nun alles dafür, dem kompletten Traffic, der auf die Landingpage kommt, Messaging B anzuzeigen.
Sollte das Ergebnis nicht statistisch signifikant sein, bedeutet das nicht sofort, dass Messaging B aus dem Rennen ist. In diesem Fall sollte man (vor allem bei einem knappen Ergebnis) zunächst einen weiteren, umfangreicheren A/B-Test durchführen, bei dem eine größere Stichprobe verwendet, also mehr Traffic untersucht wird.
Fazit: Was man außerdem beachten sollte
Zum Schluss sollte nicht unerwähnt bleiben, dass beim Thema A/B-Tests immer wieder einige typische Fehler gemacht werden, die man besser vermeiden sollte.
- A/B-Test ohne Not anwenden. Manchmal wird vergessen, dass A/B-Tests, auch wenn sie optimal ausgeführt werden, Zeit kosten. Daher kann man bei Veränderungen oder Marketingmaßnahmen, die kostengünstig sind beziehungsweise einfach wieder rückgängig gemacht werden können, vielleicht darauf verzichten. Besonders bei unumkehrbaren Veränderungen sollte man hingegen unbedingt auf statistische Signifikanz überprüfen.
- Zu wenig Variation beziehungsweise Vergleiche. Traurig, aber wahr: Meistens ist die Wirklichkeit sehr viel komplizierter als unser oben beschriebenes Beispiel. Das bedeutet, dass auch andere Stellschrauben noch dazwischenfunken könnten. Das sollte man durch weitere Tests untersuchen.
- Verzerrung einbauen. Es passiert schnell, dass man beim Aufbau eines A/B-Tests unabsichtlich die späteren Ergebnisse verzerrt ‒ zum Beispiel weil er in bestimmten Weltregionen oder bei spezifischen soziodemografischen Gruppen bestimmte Ergebnisse produzieren wird. Anschließend verallgemeinert man jedoch fälschlicherweise die Ergebnisse und sorgt dadurch für gänzlich falsche Annahmen gegenüber der eigenen Zielgruppe.
Wenn man diese Punkte beachtet und der oben beschriebenen Anleitung folgt, erhält man mit auf statistische Signifikanz überprüften A/B-Tests ein äußerst hilfreiches Tool. Es kann Erkenntnisse liefern, die Unternehmen in praktisch allen Branchen weiterhelfen können. Denn: Das Bauchgefühl liegt vielleicht ab und an richtig, statistische Signifikanz hingegen irrt sich, wenn richtig angewendet, nie.
Selten habe ich so eine falsche Erklärung statistischer Signifikanz gelesen. Ganz großer Mist.