Ergebnisse & Auswertung verstehen

Jedes laufende oder beendete Experiment bekommt automatisch eine eigene Auswertung. Du findest sie im Convertly-Dashboard im Abschnitt „Auswertung“ bzw. über das jeweilige Experiment. Diese Seite erklärt dir, was die einzelnen Zahlen bedeuten – und wie du sie liest, ohne Statistik studiert zu haben.

Die Übersicht – Spalte für Spalte

Im Tab „Übersicht“ steht pro Variante eine Zeile. Eine Variante ist deine Kontrollvariante (in der Regel der bisherige Ist-Zustand), die anderen sind deine Testvarianten. Alle Vergleiche beziehen sich auf diese Kontrollvariante.

Sitzungen: Wie viele Besucher diese Variante gesehen haben. Die Basis für alles Weitere.
Conversions: Wie viele davon das Ziel erreicht haben – standardmäßig eine Bestellung.
Conversion Rate: Conversions geteilt durch Sitzungen. Die zentrale Kennzahl: Welcher Anteil der Besucher hat konvertiert?
Verbesserung (Range): Um wie viel Prozent die Conversion Rate der Testvariante über (oder unter) der Kontrollvariante liegt. Die „Range“ dahinter ist der Bereich, in dem die echte Verbesserung mit hoher Wahrscheinlichkeit liegt – dazu gleich mehr.
Konfidenzintervall: Derselbe Bereich, nur ausführlicher dargestellt.
Konfidenz: Wie sicher du dir sein kannst, dass der Unterschied echt ist und nicht bloß Zufall.

Statistik ohne Kopfschmerzen

Der häufigste Fehler bei A/B-Tests: Man sieht „Variante B konvertiert mit 3,2 % statt 3,0 %“ und ruft B zum Sieger aus. Das Problem dabei: Bei kleinen Zahlen schwankt so eine Rate von Natur aus. Stell dir zwei Münzen vor – wirfst du jede nur zehnmal, kann allein der Zufall die eine „besser“ aussehen lassen. Erst nach vielen Würfen erkennst du, ob eine Münze wirklich anders ist.

Genau dafür gibt es die Konfidenz und das Konfidenzintervall:

Die Konfidenz (in %) beantwortet: „Wie sicher ist es, dass dieser Unterschied echt ist – und nicht nur Glück?“ Als Faustregel gilt: Erst ab 95 % Konfidenz solltest du ein Ergebnis als belastbar behandeln. Darunter ist es noch zu unsicher.
Das Konfidenzintervall (die Range) beantwortet: „In welchem Bereich liegt die echte Verbesserung wahrscheinlich?“ Steht dort z. B. +5 % (von +1 % bis +9 %), dann ist die beste Schätzung +5 %, der wahre Wert liegt aber mit 95 % Wahrscheinlichkeit irgendwo zwischen +1 % und +9 %.

Die wichtigste Lesehilfe: Schau, ob die Range die Null einschließt. Geht sie z. B. von −2 % bis +8 %, dann ist auch „gar keine Verbesserung“ (oder sogar eine Verschlechterung) noch im Spiel – das Ergebnis ist nicht aussagekräftig. Liegt die ganze Range dagegen im Plus (z. B. +1 % bis +9 %), kannst du davon ausgehen, dass die Variante wirklich besser ist.

Für die technisch Interessierten: Convertly verwendet dafür einen Zwei-Stichproben-Vergleich der Conversion Rates (z-Test) mit einem 95-%-Niveau. Die Konfidenz-Prozentzahl wird aus dem zugehörigen p-Wert abgeleitet. Du musst das nicht rechnen – das Plugin macht es für dich.

Nicht nur die Rate zählt: ARPU & Umsatz

Eine höhere Conversion Rate ist nicht automatisch mehr Geld. Eine Variante kann häufiger konvertieren, aber zu kleineren Warenkörben führen – oder umgekehrt. Deshalb gibt es die Karte „Durchschnittlicher Umsatz pro Kunde“:

Summierter Warenkorbwert: Der gesamte Umsatz, den diese Variante erzeugt hat (währungsbereinigt).
ARPU: Der durchschnittliche Umsatz pro Conversion – also wie viel eine einzelne Bestellung in dieser Variante im Schnitt einbringt.

Faustregel: Entscheide nie allein nach der Conversion Rate. Wirf immer auch einen Blick auf ARPU und Umsatz – die Kombination zeigt dir, welche Variante unterm Strich wirklich mehr bringt.

Filter & Tabs: die Auswertung eingrenzen

Über die Filter in der Seitenleiste schaust du dir gezielt Teilmengen an:

Zeitraum: Letzte 7, 14, 30, 60, 180 oder 365 Tage.
Kontrollvariante: Lege fest, gegen welche Variante alle anderen verglichen werden.
Konversion-Ziel: Standardmäßig Bestellungen; wenn du eigene Ziele definiert hast, kannst du auch danach auswerten.
Bestellstatus: Grenze die gezählten Conversions auf bestimmte Bestellstatus ein (z. B. nur abgeschlossene Bestellungen).
Verifiziert: Zeigt nur Sitzungen, die per JavaScript-Anfrage bestätigt wurden – das filtert Bots und Scraper heraus. Voraussetzung: Der „Verifizierte Modus“ ist in den Einstellungen aktiv.
Gesehene Varianten: Zeigt nur Sitzungen, in denen die Variante anhand der Shopware-Regeln nachweislich ausgespielt wurde.

Die letzten beiden Filter sind deine wichtigsten Werkzeuge für saubere Daten: Sie sorgen dafür, dass du echte Nutzer auswertest und nicht Bots oder Sitzungen, die die Variante nie zu Gesicht bekommen haben.

Über die Tabs wechselst du zwischen der „Übersicht“, den „Käufen“ (mit der Umsatz- und ARPU-Auswertung sowie einer Aufschlüsselung der Gastbestellungen) und – sofern du Ziele definiert hast – dem Tab „Ziele“.

So liest du ein Ergebnis richtig – die Kurzanleitung

Hat das Experiment genug Sitzungen gesammelt? Bei sehr kleinen Zahlen ist jede Aussage unsicher – lass den Test weiterlaufen.
Ist die Konfidenz bei mindestens 95 %? Wenn nicht, ist das Ergebnis noch nicht belastbar.
Schließt die Verbesserungs-Range die Null ein? Wenn ja, ist es unentschieden – egal wie gut die Prozentzahl aussieht.
Stimmt das Bild auch beim Umsatz? Prüfe ARPU und summierten Warenkorbwert, nicht nur die Conversion Rate.
Nicht zu früh „spicken“: Ein Test, der zwischendurch mal 95 % erreicht, kann später wieder darunter fallen. Lege vorab fest, wie lange du testen willst, und entscheide erst am Ende.

Kurz gesagt: Eine Variante hat gewonnen, wenn sie eine spürbare Verbesserung zeigt, die Konfidenz bei mindestens 95 % liegt, die Range komplett im Plus ist – und der Umsatz die Geschichte bestätigt.

Weiterführend

Du möchtest die Experiment-Daten zusätzlich in Google Analytics 4 auswerten? Convertly kann die A/B-Test-Metadaten als Event an den Google Tag Manager übergeben. Die Einrichtung beschreiben wir im Implementierungsleitfaden für GTM.