Ein A/B-Test (auch Split-Test genannt) ist eine Methode, bei der du zwei Versionen eines digitalen Inhalts — etwa einer Webseite, eines E-Mail-Betreffs oder eines Werbebanners — gleichzeitig an verschiedene Nutzergruppen ausspielst, um datenbasiert herauszufinden, welche Version besser funktioniert. Gruppe A sieht dabei die Originalversion, Gruppe B eine abgewandelte Variante. Am Ende des Tests vergleichst du die Ergebnisse anhand vorher festgelegter Kennzahlen wie der Conversion Rate (dem Anteil der Nutzer, die eine gewünschte Aktion ausführen), der Klickrate oder der Absprungrate.
Wie ein A/B-Test funktioniert
Der Ablauf folgt immer demselben Grundprinzip: Zuerst legst du ein konkretes Ziel fest — zum Beispiel, dass mehr Besucher auf einen Kaufen-Button klicken sollen. Dann formulierst du eine Hypothese: etwa „Ein orangefarbener Button erzeugt mehr Klicks als ein grauer.“ Anschließend teilst du deinen Traffic nach dem Zufallsprinzip auf die beiden Gruppen auf. Diese Randomisierung ist entscheidend, weil sie sicherstellt, dass Unterschiede im Ergebnis wirklich auf die getestete Änderung zurückzuführen sind und nicht auf andere Faktoren wie Tageszeit oder Nutzerherkunft.
Das Wichtigste dabei: Du veränderst pro Test nur eine einzige Variable. Änderst du gleichzeitig die Farbe, den Text und die Größe des Buttons, kannst du am Ende nicht mehr sagen, was den Unterschied gemacht hat. Wenn du mehrere Elemente gleichzeitig testen willst, brauchst du einen multivariaten Test — eine aufwendigere Variante, die deutlich mehr Traffic voraussetzt.
Damit das Ergebnis verlässlich ist, muss der Test lange genug laufen und genug Nutzer einschließen. In der Statistik spricht man von statistischer Signifikanz: Das Ergebnis soll nicht durch Zufall entstanden sein, sondern mit hoher Wahrscheinlichkeit reproduzierbar sein. Eine gängige Schwelle ist ein Signifikanzniveau von 95 Prozent.
Geschichte und Herkunft
Das Grundprinzip des A/B-Tests stammt nicht aus dem Marketing, sondern aus der Wissenschaft. Randomisierte kontrollierte Experimente wurden in der Medizin bereits im 19. Jahrhundert eingesetzt. In der Werbung begannen Vermarkter in den 1960er-Jahren, ähnliche Methoden anzuwenden — damals noch mit physischen Postkarten, um herauszufinden, welches Angebot besser ankam. Mit der Verbreitung des Internets in den 1990er-Jahren wurde A/B-Testing digital, und in den 2000er-Jahren etablierte es sich als Standardwerkzeug im Online-Marketing.
Bekannt wurde die Methode einem breiteren Publikum durch ein Experiment von Marissa Mayer bei Google, das um 2009 durchgeführt wurde. Google verwendete auf seiner Startseite und in Gmail zwei leicht unterschiedliche Blautöne für Links. Statt einfach einen Farbton auszuwählen, testete Mayers Team 41 verschiedene Blaunuancen mit je einem kleinen Anteil der Nutzer und maß, welcher Ton die meisten Klicks erzeugte. Das Ergebnis: Ein leicht violetter Blauton schnitt am besten ab. Laut Berichten soll diese eine Entscheidung Google rund 200 Millionen US-Dollar an zusätzlichen Werbeeinnahmen pro Jahr gebracht haben — wobei Kritiker anmerken, dass dieser Betrag im Verhältnis zu Googles Gesamtumsatz von damals rund 22 Milliarden US-Dollar weniger als ein Prozent ausmachte.
Einsatzbereiche im Online-Marketing
A/B-Tests lassen sich auf fast jeden Bereich einer digitalen Präsenz anwenden. Typische Testobjekte sind Überschriften auf Landingpages, die Formulierung von Call-to-Action-Buttons (also Aktionsaufforderungen wie „Jetzt kaufen“ oder „Gratis testen“), Produktbilder, E-Mail-Betreffzeilen, Checkout-Abläufe in Online-Shops oder die Platzierung von Formularen.
Ein anschauliches Beispiel aus der Praxis liefert Netflix. Das Unternehmen testet für jeden Film und jede Serie mehrere Vorschaubilder gegeneinander und spielt jeweils verschiedenen Nutzergruppen unterschiedliche Varianten aus. Laut Netflix führt diese Methode zu einem Anstieg der Wiedergaben um 20 bis 30 Prozent für Titel, bei denen das Thumbnail durch A/B-Tests optimiert wurde.
Grenzen und häufige Fehler
A/B-Tests sind kein Allheilmittel. Ein häufiger Fehler ist es, einen Test zu früh abzubrechen, sobald eine Variante vorne liegt — das Ergebnis kann sich noch ändern, und ohne ausreichend Daten ist die Aussage wertlos. Auch saisonale Schwankungen können Ergebnisse verfälschen: Ein Test, der nur an einem einzigen Wochentag läuft, zeigt möglicherweise ein verzerrtes Bild.
Außerdem lösen A/B-Tests keine grundlegenden Probleme. Wenn dein Shop eine schlechte Nutzererfahrung hat, wird ein optimierter Button-Farbton das kaum kompensieren. Und schließlich gibt es eine philosophische Debatte: Datengetriebenes Design kann zu einer Optimierung auf kurzfristige Klicks führen, ohne die langfristige Markenwahrnehmung zu berücksichtigen. Der Designer Doug Bowman verließ Google 2009 öffentlichkeitswirksam, weil er keine Entscheidung mehr treffen konnte, die nicht durch Testergebnisse belegt war.
Häufige Fragen
Was ist der Unterschied zwischen einem A/B-Test und einem multivariaten Test?
Beim A/B-Test veränderst du eine einzige Variable und vergleichst zwei Versionen miteinander. Bei einem multivariaten Test testest du gleichzeitig mehrere Elemente und deren Kombinationen. Der Vorteil des multivariaten Tests ist, dass du mehr auf einmal lernst — der Nachteil ist, dass du dafür deutlich mehr Traffic brauchst, damit die Ergebnisse statistisch aussagekräftig sind.
Wie lange sollte ein A/B-Test laufen?
Das hängt von deinem Traffic ab. Als Faustregel gilt: Ein Test sollte mindestens eine bis zwei volle Wochen laufen, um Wochentags-Schwankungen auszugleichen, und so lange, bis du eine ausreichend große Datenmenge gesammelt hast. Viele A/B-Testing-Tools berechnen dir automatisch, wie viele Nutzer du für ein statistisch verlässliches Ergebnis brauchst.
Beeinflusst ein A/B-Test das SEO-Ranking meiner Website?
Google hat offiziell bestätigt, dass korrekt durchgeführte A/B-Tests kein Ranking-Problem darstellen. Wichtig ist, dass du keine Cloaking-Techniken verwendest — also Suchmaschinen und Nutzer nicht verschiedene Inhalte ausspielst, die inhaltlich stark voneinander abweichen. Wer die Testseite über einen längeren Zeitraum laufen lässt, ohne das Experiment abzuschließen, kann allerdings durch Duplicate Content auffallen.