Wprowadzenie do algorytmu Unified ID
Problem z łączeniem użytkowników
Rozwiązanie i korzyści z Unified ID
Jak działa Unified ID i kiedy je wdrożyć?
Ograniczenia z biznesowego punktu widzenia
Techniczne aspekty modelu danych
Podsumowanie
W tym wpisie opisuję algorytm Unified ID, który pozwala uratować marketingowe KPI. Wyjaśniam, jak działa łączenie użytkowników między różnymi urządzeniami w Google Analytics 4, jakie wyzwania pojawiają się podczas łączenia tych danych w Google BigQuery, czym jest mechanizm algorytmu Unified ID oraz jak wdrożyć Unified ID w kontekście modelu danych.
Tekst ma charakter techniczny, jednak ta wiedza jest niezbędna, aby lepiej rozumieć, jakie mechanizmy stoją za raportami marketingowymi i jakie ograniczenia mogą wpływać na ich interpretację. W tym wpisie zostanie przedstawione biznesowe podejście do analizy danych oraz opisane konkretne rozwiązanie techniczne z wykorzystaniem autorskiego modelu danych. W części biznesowej omówione zostaną statystyki dotyczące wpływu niewykorzystywania mechanizmu Unified ID na metryki marketingowe. Brak wdrożenia tego rozwiązania może negatywnie wpływać na jakość danych i skuteczność prowadzonych działań marketingowych.
Problem polega na tym, że GA4 umożliwia łączenie użytkowników pomiędzy różnymi urządzeniami. Połączenia te można zobaczyć w raporcie nakładania się segmentów dostępnych w sekcji eksploracje. Aby Google Analytics 4 mógł rozpoznawać użytkowników między różnymi urządzeniami, niezbędna jest odpowiednia konfiguracja. Kluczowe znaczenie ma sekcja „tożsamość raportowania” w ustawieniach administracyjnych.
W przypadku Google BigQuery domyślnie nie następuje łączenie użytkowników korzystających z różnych urządzeń, nawet jeśli w GA4 skonfigurowano rozpoznawanie tożsamości. Przykładowo, jeśli użytkownik najpierw odwiedza stronę z telefonu podczas podróży komunikacją miejską, a następnie wraca do domu i dokonuje zakupu na komputerze, BigQuery zarejestruje te wizyty jako dwóch różnych użytkowników.
Takie rozbieżności mają istotny wpływ na metryki marketingowe wykorzystywane do analizy skuteczności działań. W BigQuery pojawia się zawyżona liczba unikalnych użytkowników w porównaniu do raportów z GA4. Nasze szacunki wskazują, że jest to średnio o 30–40% więcej unikalnych użytkowników w BigQuery niż w Google Analytics 4. Zawyżony ruch direct wynika z uciętych ścieżek konwersji, które stają się niepewne, gdy użytkownik zmienia urządzenie. W takiej sytuacji historia jego działań nie jest widoczna. Kanały odpowiadające za pozyskanie użytkowników na wcześniejszych etapach procesu zakupowego są niedoszacowane.
Rozwiązaniem tego problemu jest algorytm Unified ID. Pozwala on łączyć użytkowników korzystających z różnych urządzeń w jedno ID użytkownika, podobnie jak GA4 poprzez funkcję user ID. Działanie polega na tworzeniu grafu zależności – jeśli jedno ID (np. ciasteczko) zostanie rozpoznane na różnych urządzeniach przez logowanie, użytkownik zostaje połączony w jedno zunifikowane ID (Unified ID). Algorytm identyfikuje wspólne elementy w różnych cookie ID i łączy je w jedno ID.
W praktyce Unified ID pozwala na dokładne mierzenie metryk pozyskiwania, szczególnie liczby unikalnych użytkowników. Poniżej znajduje się tabela przedstawiająca Merge Rate, czyli procent użytkowników połączonych między sobą, w zależności od rodzaju systemu i witryny. Dane pochodzą z rzeczywistych wdrożeń u naszych klientów. Szczególnie wysoki Merge Rate obserwujemy tam, gdzie użytkownicy często się logują, zwłaszcza w e-commerce z branży fashion. W takich przypadkach Merge Rate może osiągać nawet 30%.
To pierwsza wartość płynąca z wykorzystania Unified ID. Kolejną korzyścią jest poprawa atrybucji źródeł ruchu. Dzięki Unified ID ścieżki użytkowników nie są fragmentaryczne, co umożliwia połączenie wizyt jednego użytkownika nawet wtedy, gdy korzysta z różnych urządzeń. Efektem jest bardziej precyzyjne przypisanie sesji i konwersji do właściwych źródeł ruchu.
Bez Unified ID, gdy użytkownik przerywa swoją ścieżkę i wraca z innego urządzenia, jego wizyta oraz ewentualna konwersja zostają przypisane do wejścia bezpośredniego. Wejście bezpośrednie często stanowi dużą niewiadomą w analizie ruchu. Wdrożenie Unified ID pozwala właściwie przypisać konwersje do faktycznych źródeł ruchu, które sprowadziły użytkownika na stronę. Warto podkreślić, że liczba konwersji nie wzrasta – poprawia się jedynie trafność ich przypisania. Drugą wartością jest poprawa jakości danych. Trzecią zaletą, wynikającą z poprzednich korzyści, jest to, że dzięki mniejszej liczbie użytkowników (czyli połączonym użytkownikom rozpoznanym między urządzeniami) oraz lepszej atrybucji sesji i konwersji, metryki zostają policzone dokładniej. Dotyczy to zwłaszcza metryk marketingowych, takich jak ROAS, ale także wskaźników bazujących na życiowej wartości klienta, w szczególności LTV. To właśnie takie wartości daje wdrożenie Unified ID.
Unified ID działa w ten sposób, że rozpoznanie użytkownika między urządzeniami następuje w momencie logowania i autoryzacji w produkcie na różnych urządzeniach. Gdy ten sam użytkownik zostanie zidentyfikowany, jego ciasteczka są łączone między urządzeniami. W Google BigQuery można to zrealizować także wstecz.
Unified ID warto wdrożyć w każdym serwisie, a szczególnie w przypadku, gdy użytkownicy logują się do serwisu lub gdy występuje długi cykl zakupowy. Jest to szczególnie istotne w e-commerce, gdzie od pierwszej wizyty do konwersji często mija dużo czasu. Kolejnym istotnym aspektem jest multi-device audience, czyli użytkownicy korzystający z różnych urządzeń. Wśród naszych klientów, szczególnie w branży fashion oraz na marketplace’ach, multi-device audience odgrywa dużą rolę.
Kolejny warunek, który warto uwzględnić podczas rozważania wdrożenia Unified ID, to posiadanie budżetu mediowego na poziomie co najmniej 50 tysięcy złotych miesięcznie. Dzięki takim nakładom można oczekiwać realnego zwrotu z wdrożenia Unified ID. W praktyce pozwala to na lepszą ocenę efektywności prowadzonych kampanii i mierzalne zwiększenie ich skuteczności. Kwota 50 tysięcy jest wartością orientacyjną, jednak większość naszych klientów dysponuje takim budżetem, co potwierdza zasadność wdrażania Unified ID.
Warto pamiętać również o ograniczeniach Unified ID z biznesowego punktu widzenia. Najważniejszym z nich jest konieczność autoryzacji, czyli ujawnienia tożsamości przez użytkownika. Bez tego nie można połączyć aktywności jednego użytkownika między różnymi urządzeniami. Istnieje też ryzyko pojawienia się fałszywych połączeń, na które należy zwrócić uwagę podczas analizy danych. Na przykład, gdy dwie osoby korzystają z tego samego urządzenia, nie ma możliwości połączenia ich jako tego samego użytkownika między różnymi urządzeniami. W przypadku zastosowania consent mode, gdy użytkownik nie wyrazi zgody na obsługę ciasteczek analitycznych, wartość ciasteczka w Google BigQuery pozostaje pusta. Takiej pustej wartości nie można połączyć z innymi danymi.
Z biznesowego punktu widzenia oznacza to ograniczenie w analizie zachowań użytkowników. Poniżej przedstawiam bardziej techniczne zagadnienia na podstawie modelu danych wykorzystywanego w Conversion. Szczegółowy opis modelu danych można znaleźć w linku umieszczonym w opisie – zawiera on informacje, czym jest ten model i jak działa. W naszym modelu danych Unified ID jest domyślnie zaszyte, co umożliwia budowanie modeli atrybucji. Bez Unified ID realne modelowanie atrybucji nie byłoby możliwe. Na przykładzie prezentowanego modelu widać, jak istotna jest druga wartość: przypisujemy ruch Direct, który często stanowi niewiadomą, oraz Google Ads w analizowanym projekcie. W tym przypadku Google Ads zyskał 10% udziału w sesjach i konwersjach po zastosowaniu Unified ID.
W części technicznej warto zwrócić uwagę, że identyfikatorem użytkownika lub ciasteczka w Google BigQuery jest user pseudo ID, czyli unikalny identyfikator przypisany do przeglądarki lub urządzenia. Na bazie UserPseudoID, gdy użytkownik się zaloguje, w BigQuery pojawia się również pole UserID. Nawet jeśli pole UserID jest uzupełnione, nie łączy ono automatycznie różnych UserPseudoID przypisanych do tej samej osoby. Pomimo przesłania UserID do BigQuery, raporty nie połączą tych danych bez dodatkowych działań.
Aby skutecznie powiązać UserPseudoID z UserID, należy wdrożyć algorytm Union Find. W Conversion korzystamy w tym celu z notebooka Pythonowego. Na grafie prezentującym powiązania użytkowników szukamy grup identyfikatorów należących do jednej osoby. Dzięki temu, na podstawie logowania użytkownika (UserID), można połączyć różne UserPseudoID pochodzące z różnych urządzeń i ciasteczek. Na tej podstawie powstaje unified ID. Kolejnym krokiem jest tworzenie tabeli wynikowej, która w modelu służy do rozrysowywania ścieżek atrybucji użytkowników, pokazując, z jakich źródeł po kolei wchodzą. Unified ID stanowi bazę dla tabel atrybucyjnych, które umożliwiają wyznaczanie różnych modeli atrybucji za pomocą modelu danych. Takie podejście pozwala uzyskać pełną ścieżkę konwersji, co ma kluczowe znaczenie w modelowaniu atrybucji. Unified ID pozwala rozwiązać kilka kluczowych problemów analityki internetowej. Pozwala ograniczyć zawyżoną liczbę użytkowników w raportach oraz zawyżony udział ruchu direct, poprawiając jednocześnie przypisanie konwersji do właściwych źródeł ruchu. Dzięki Unified ID możliwe staje się pełniejsze odwzorowanie ścieżek konwersji, co jest kluczowe dla prawidłowego modelowania atrybucji.
Wdrożenie Unified ID w modelu danych sprawia, że kanały z górnej części lejka (Upper Funnel), które pozyskują użytkowników na wczesnych etapach procesu zakupowego, nie są pomijane w analizie. Standardowe wdrożenie tej funkcji umożliwia poprawne łączenie użytkowników między różnymi urządzeniami oraz naprawia przypisywanie źródeł ruchu. Unified ID agreguje dane z różnych źródeł marketingowych, szczególnie z platform reklamowych, co przekłada się na lepszą optymalizację kosztów w Google BigQuery. Model danych nie tylko monitoruje dane, ale również alarmuje, gdy pojawiają się nieoczekiwane zmiany. Zintegrowane analizy są dostępne od pierwszego dnia wdrożenia, co pozwala natychmiast aktywować dane w biznesie. W opisie pod filmem znajduje się szczegółowy opis elementów naszego modelu danych.
Unified ID nie generuje nowych danych, konwersji ani sesji. Funkcja ta ujawnia istniejące konwersje, przypisując je do właściwych źródeł ruchu. Ma to kluczowe znaczenie dla oceny skuteczności kampanii marketingowych, zwłaszcza że domyślnie BigQuery nie oferuje takiej funkcjonalności. GA4 posiada tę możliwość, jednak zaawansowani użytkownicy zwykle korzystają z surowych danych przesyłanych do BigQuery. Korzystanie z raportowania opartego na Google BigQuery wymaga wdrożenia Unified ID. Bez tej funkcji, w dobie wielokanałowości i korzystania przez użytkowników z różnych urządzeń, obraz użytkownika staje się coraz mniej precyzyjny. Warto wdrożyć Unified ID w raportowaniu w Google BigQuery lub rozważyć skorzystanie z naszego modelu danych.

Historie sukcesów
Ostatnie wpisy na blogu