4 najczęstsze błędy przy testach A/B lub wieloczynnikowych

Jeżeli dobrze zaplanowaliśmy swoje testy A/B lub wielowymiarowe z dużym prawdopodobieństwem uda nam się uniknąć większości popełnianych zazwyczaj błędów.

Największą uwagę powinniśmy jednak zwrócić na cztery, najczęściej popełniane, błędy:

1. „Testowanie jest kompletnie darmowe! Nie trzeba nad nim myśleć – trzeba działać”

Testy A/B lub wielowymiarowe są praktycznie darmowe We wszystkich naszych postach, tak na temat danych jakościowych jak i również testów online piszemy, że nie ma wymówek przed ich wykorzystywaniem, ponieważ można to robić praktycznie za darmo.

Praktycznie, nie oznacza jednak, że w pełni. Oczywiście, znajdziemy świetne narzędzia, które są darmowe i poświęcimy swój czas, aby przeanalizować dane i przygotować nowe propozycje. Nasz czas jednak kosztuje. I nie jest on bynajmniej jedynym elementem, za który przyjdzie nam zapłacić.

Nie wszystkie propozycje dadzą pozytywny efekt.

Testy online pomagają nam w szybszym popełnianiu błędów i wyciąganiu z tego konstruktywnych wniosków. Powoduje to jednak, że przez pewien okres – zanim poprawimy konwersję – będziemy tak naprawdę zarabiać mniej.

Wyobraźmy sobie sytuację w której testujesz propozycje A (oryginalna), B i C. Po dwóch tygodniach otrzymujemy następujące wyniki: A – 2,5% B – 3% C – 1,1%

Jeśli każda z wersji otrzymała 33% ruchu, to średni współczynnik konwersji przez okres dwóch tygodni jest równy 2,2% (średnia z trzech liczb: 2,5%, 3%, 1,1%). Gdyby testów nie było ten współczynnik równałby się 2,5%. Oznacza to 12% gorszy współczynnik konwersji niż gdybyśmy testów nie przeprowadzali!

W długim okresie na pewno wygramy. Nie odbędzie się to jednak zerowym kosztem.

W gorszej sytuacji znajdujemy się, jeśli testowane przez nas kombinacje mają wynik słabszy niż wersja oryginalna. Oznacza to nie tylko, że naraziliśmy się na niższy dochód ze swojej witryny internetowej przez okres testu, ale również poniekąd straciliśmy zainwestowany do tej pory czas, ponieważ wnioski z analizy okazały się niepoprawne. Tak czasem się zdarza – nie powinniśmy się jednak załamywać. W takich wypadkach trzeba przeanalizować co nie odpowiadało naszym użytkownikom i wystartować z nowym testem, który będzie wolny od tych błędów.

Należy sobie również odpowiedzieć na pytanie, czy testy są w tym momencie priorytetem? Koszt alternatywny innych działań może przewyższyć przychód z ich przeprowadzenia. Powinniśmy pamiętać o priorytyzacji.

Z powyższych powodów nie należy traktować testów, jako kompletnie darmowego rozwiązania.

2. „Zróbmy szybsze testy A/B. Po co testować interakcje pomiędzy elementami i tracić czas? Czuję, że ich nie ma!”

Testy A/B i wieloczynnikowe porównujące skuteczność jedynie wybranych kombinacji zakładają, że nie ma interakcji pomiędzy poszczególnymi zmiennymi. W Internecie bardzo często nie jest to prawdą.

Aby łatwiej było wyobrazić sobie interakcje pomiędzy zmiennymi zerknijmy na poniższy przykład.

Mamy dwie zmienne. Obrazek oraz nagłówek.

Nagłówek ma tylko jedną odmianę: Samochody Ferrari są najszybsze

Obrazek ma natomiast dwie odmiany:

Źródło: http://www.sportscarcup.com/; http://www.lotustalk.com/

W obu przypadkach z tym samym nagłówkiem będziemy mieli zupełnie różne przekazy.

Jak to może wpłynąć na przeprowadzane przez nas testy? Jeżeli przykładowo założymy, że pomiędzy elementem X i Y nie ma interakcji możemy przeprowadzić testy A/B w których zmienimy połączenie tych dwóch elementów (traktujemy je jako jedna zmienna). Testy dają pozytywny wynik wzrostu konwersji o 12,5% – świętujemy sukces.

Tak naprawdę, nie wiemy w tym momencie, czemu zawdzięczasz sukces. Może być tak, że w zwycięskiej wersji zmiana elementu X zwiększała konwersję o 50%, natomiast zmiana elementu Y obniżała ją o 25% i stąd wziął się wynik 12,5%. Jak widzimy nie jest to wynik optymalny, ponieważ nie zmieniając elementu Y konwersja zostałaby poprawiona o 50% (a nie liche 12,5% 😉 ).

Oznacza to, że należy mocno przyglądać się możliwym interakcjom pomiędzy zmiennymi i je monitorować, ponieważ zakładając z góry, że tych interakcji nie ma – można narazić się na niepełne wykorzystanie potencjału testowanych elementów.

3. „Po dwóch dniach mam statystycznie istotne wyniki! Mamy zwycięzcę, więc startujemy z kolejnym testem.”

Zbyt krótki test Google Webste Optimizer

Zbyt krótki okres zbierania danych może prowadzić do przesadnego hurraoptymizmu. Przy zbieraniu danych będziemy obserwowali fluktuacje i nic na to nie poradzimy.

Zbyt częste sprawdzanie wyników testu na początku jego trwania może nas doprowadzić do błędnych wniosków. Na początku możemy święcić triumfy, a po kilku dniach okaże się, że jednak poprawa była mniejsza niż wskazywały na to wstępne dane.

Dzięki statystyce, zebranie coraz większej liczby danych powinno ustabilizować nam szacowane współczynniki konwersji na rzeczywistym poziomie. Zmniejszą się wtedy zakresy błędu szacunkowego, który zawsze powinniśmy brać pod uwagę analizując dane z testu.

Patrząc na powierzchownie na powyższe dane widzimy, że wersja próbna daje o 33% gorsze wyniki – jej wynik to współczynnik konwersji na poziomie 12,5%, natomiast wersja oryginalna zanotowała wynik rzędu 18,9%. Różnica wynosi 6,4 punkta procentowego!

Jeśli jednak weźmiemy pod uwagę błąd szacunkowy, może okazać się że różnica ta jest jednak znacznie mniejsza. Minimalny wynik współczynnika konwersji dla wersji oryginalnej to 15,7% (18,9% – 3,2%), natomiast maksymalny wynik dla wersji próbnej to 15,2% (12,5% + 2,7%). Różnica to 0,5 p.p. Różnica w poziomie konwersji już nie jest tak jednoznaczna i powalająca, prawda?

Z powyższych powodów powinniśmy zawsze czekać aż uda nam się uzbierać większą ilość danych. Test, który będzie dla nas podstawą do wdrożenia zmiany nanaszej witrynie, powinien trwać ok. 2 tygodnie. Do tego czasu zakres błędu mocno się ograniczy, a prezentowanym wynikom będzie można uwierzyć.

4. „Przecież moje testy trwają tylko 2 tygodnie. Po co mam brać pod uwagę sezonowość?”

Najgorszym możliwym typem testowania jest prezentowanie przez np. tydzień wersji strony A, a przez kolejny tydzień wersji strony B. Możemy mieć pewność, że z porównania takich danych nic dobrego nie wyjdzie, ponieważ zbyt wiele czynników jest zmiennych.

Niektóre z nich mają również bardzo poważny wpływ przy przeprowadzaniu testów równoległych. Nawet ci sami ludzie odwiedzając nasza witrynę w różnych okresach mogą zachowywać się różnie. Maja na to wpływ takie czynniki jak np. znajomość naszego produktu czy działania konkurencji.

W związku z tym powinniśmy pamiętać o tym, aby testy:

przeprowadzać na stabilnych źródłach ruchu – nie zmieniać ich zestawu w trakcie prowadzonego testu (segmentujmy ruch),
starać się ominąć sezony sprzedażowe – np. święta (chyba, że testujemy specjalnie pod nie).

A co Wy dopisalibyście do powyższej listy 4 najczęściej popełnianych błędów? Czy nie zgadzacie się z którymś punktem? Zapraszam do komentowania.

Ciekawym dopełnieniem powyższej listy 4 najczęstszych błędów, związanych z testowaniem, jest post Mateusza na temat tego, jaki model współpracy w ramach projektu optymalizacji konwersji należy wybrać.

Chcesz dowiedzieć się więcej o optymalizacji konwersji? Przeczytaj nasz artykuł o tym jak poprawić swój proces testowania i poznaj sprawdzone sposoby na poprawę swoich testów A/B.

UWAGA: Z dniem 1 sierpnia 2012 roku Google Website Optimizer został zastąpiony przez Eksperymenty Google Analytics!

ANALITYKA WEB

ANALITYKA APP

PRYWATNOŚĆ (CMP)

WIZUALIZACJA I BI

HURTOWANIE DANYCH

ROZWIĄZANIA CHMUROWE

MODELOWANIE DANYCH

OPTYMALIZACJA KONWERSJI (CRO)

AKTYWACJA DANYCH

PREDYKCJA I AI

4 najczęstsze błędy przy testach A/B lub wieloczynnikowych

1. „Testowanie jest kompletnie darmowe! Nie trzeba nad nim myśleć – trzeba działać”

2. „Zróbmy szybsze testy A/B. Po co testować interakcje pomiędzy elementami i tracić czas? Czuję, że ich nie ma!”

3. „Po dwóch dniach mam statystycznie istotne wyniki! Mamy zwycięzcę, więc startujemy z kolejnym testem.”

4. „Przecież moje testy trwają tylko 2 tygodnie. Po co mam brać pod uwagę sezonowość?”

Conversion Data Guard

Conversion Insight Stream

Analytics Hotline

ANALITYKA WEB

ANALITYKA APP

PRYWATNOŚĆ (CMP)

WIZUALIZACJA I BI

HURTOWANIE DANYCH

ROZWIĄZANIA CHMUROWE

MODELOWANIE DANYCH

OPTYMALIZACJA KONWERSJI (CRO)

AKTYWACJA DANYCH

PREDYKCJA I AI

Popularne tematy

Najnowsze wpisy

Kim jesteśmy?

Nasi klienci

4 najczęstsze błędy przy testach A/B lub wieloczynnikowych

1. „Testowanie jest kompletnie darmowe! Nie trzeba nad nim myśleć – trzeba działać”

2. „Zróbmy szybsze testy A/B. Po co testować interakcje pomiędzy elementami i tracić czas? Czuję, że ich nie ma!”

3. „Po dwóch dniach mam statystycznie istotne wyniki! Mamy zwycięzcę, więc startujemy z kolejnym testem.”

4. „Przecież moje testy trwają tylko 2 tygodnie. Po co mam brać pod uwagę sezonowość?”