<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Próbkowanie danych - Conversion</title>
	<atom:link href="https://conversion.pl/tag/probkowanie-danych/feed/" rel="self" type="application/rss+xml" />
	<link>https://conversion.pl</link>
	<description></description>
	<lastBuildDate>Thu, 30 Apr 2026 15:34:51 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	
	<item>
		<title>Raporty Google Analytics 4: kardynalność i próbkowanie danych oraz inne limity</title>
		<link>https://conversion.pl/blog/raporty-google-analytics-4-kardynalnosc-probkowanie-danych-limity/</link>
		
		<dc:creator><![CDATA[Aleksy Zakrzewski]]></dc:creator>
		<pubDate>Wed, 15 Mar 2023 14:00:05 +0000</pubDate>
				<category><![CDATA[Analityka internetowa]]></category>
		<category><![CDATA[Eksperymenty Google Analytics]]></category>
		<category><![CDATA[Google Analytics]]></category>
		<category><![CDATA[kardynalność]]></category>
		<category><![CDATA[limity Google Analytics]]></category>
		<category><![CDATA[Próbkowanie danych]]></category>
		<category><![CDATA[Raporty Google Analytics]]></category>
		<category><![CDATA[Raporty Google Analytics 4]]></category>
		<guid isPermaLink="false">https://new.conversion.pl/?p=4335</guid>

					<description><![CDATA[<p>Jeśli obszar analityki internetowej jest Ci znany “nie od dziś”, to z pewnością zdajesz sobie sprawę, że jedno z najpopularniejszych narzędzi (dla przypomnienia: Google Analytics) &#8211; nakłada na swoich użytkowników pewne ograniczenia. Do kluczowych możemy zaliczyć między innymi: próbkowanie, kardynalność i progowanie danych, a także limity trafień, konfiguracji czy zbierania danych o zdarzeniach. Jeżeli chcesz [&#8230;]</p>
<p>The post <a href="https://conversion.pl/blog/raporty-google-analytics-4-kardynalnosc-probkowanie-danych-limity/">Raporty Google Analytics 4: kardynalność i próbkowanie danych oraz inne limity</a> first appeared on <a href="https://conversion.pl">Conversion</a>.</p>]]></description>
										<content:encoded><![CDATA[<div class="photo"><a href="https://conversion.pl/wp-content/uploads/2023/03/Blog_ga4_limity.png"><img fetchpriority="high" decoding="async" class="aligncenter size-full wp-image-4366" src="https://conversion.pl/wp-content/uploads/2023/07/Blog_raporty-GA4.png" alt="Raporty Google Analytics 4: kardynalność i próbkowanie danych, limity" width="750" height="519" /></a></div>
<p><strong>Jeśli obszar analityki internetowej jest Ci znany “nie od dziś”, to z pewnością zdajesz sobie sprawę, że jedno z najpopularniejszych narzędzi (dla przypomnienia: Google Analytics) &#8211; nakłada na swoich użytkowników pewne ograniczenia. Do kluczowych możemy zaliczyć między innymi: próbkowanie, kardynalność i progowanie danych, a także limity trafień, konfiguracji czy zbierania danych o zdarzeniach.</strong></p>
<p>Jeżeli chcesz się dowiedzieć, czym są, sprawdź, co takiego mogą oznaczać dla Twojego biznesu &#8211; najbliższa okazja na poszerzenie swojej wiedzy jest właśnie przed Tobą! Sprawdź poniższy artykuł, aby poznać ich definicje oraz sposób działania. Zapraszam!</p>
<p><b>Co znajdziesz w tym artykule?</b><br />
<a href="#danych">Próbkowanie danych w Google Analytics</a><br />
<a href="#po">Po czym poznać, że Twój raport jest spróbkowany lub nie?</a><br />
<a href="#Różnice">Różnice w próbkowaniu w Google Analytics 4 vs Universal Analytics</a><br />
<a href="#Eksploracje">Eksploracje niespróbkowane &#8211; czym są i czy warto?</a><br />
<a href="#Kardynalność">Kardynalność danych w Google Analytics</a><br />
<a href="#Dlaczego">Dlaczego liczność danych w Google Analytics 4 może stanowić źródło problemów?</a><br />
<a href="#other">Jak pozbyć się “other” w raportach GA4?</a><br />
<a href="#Progowanie">Progowanie danych w Google Analytics</a><br />
<a href="#Kiedy">Kiedy stosowane są progi danych?</a><br />
<a href="#Czy">Czy możesz usunąć próg danych?</a><br />
<a href="#Limity">Limity w Google Analytics</a><br />
<a href="#trafień">Limity trafień w Google Analytics 4</a><br />
<a href="#zbierania">Limity zbierania danych o zdarzeniach</a><br />
<a href="#GA4">Limity konfiguracji w GA4</a><br />
<a href="#podsumowanie">Limity, kardynalność i próbkowanie w raporty Google Analytics 4 &#8211; podsumowanie</a></p>
<h2 id="danych">Próbkowanie danych w Google Analytics</h2>
<p>W raportach Google Analytics próbkowanie danych nie jest żadną nowością. Wiąże się ono z nałożonymi limitami – po to, aby ograniczyć liczbę danych wykorzystywanych do raportowania.</p>
<p>Opiera się ono na liczbie zdarzeń i może pojawić się w raportach eksploracji. Limit dla GA4 wynosi 10 milionów zdarzeń, a im większa próbka, tym również większa dokładność samych wyników. Aby uzyskać dokładniejsze wyniki &#8211; spróbuj zmniejszyć zakres dat. Jeśli jesteś klientem GA4 360, możesz zażądać niespróbkowanych wyników (beta) w raporcie eksploracji z próbkowaniem.</p>
<p>W najnowszej wersji, czyli Google Analytics 4, raporty dzielą się na dwie grupy: <strong>standardowe oraz zaawansowane</strong>. Pierwsze z nich nie są próbkowane na bazie 100% danych pochodzących z wybranego zakresu dat. Natomiast raporty zaawansowane mogą być czasami próbkowane &#8211; w zależności od wybranych warunków.</p>
<p>Jeśli korzystasz z GA4 i jednocześnie nie chcesz, aby Twoje dane podlegały próbkowaniu &#8211; wystarczy, że do tego celu dodasz wymiar lub segment.</p>
<h2 id="po">Po czym poznać, że Twój raport jest spróbkowany lub nie?</h2>
<p>Na szczęście jest to bardzo proste. Mianowicie, w raporcie niespróbkowanym w <a href="https://conversion.pl/blog/google-analytics-4-2/"><strong>Google Analytics 4</strong></a> – na górze ekranu zobaczysz charakterystyczną zieloną ikonę ze znacznikiem wyboru. Jeśli zamiast niej dostrzeżesz żółtą ikonę z symbolem % &#8211; będzie to znak, że raport jest próbkowany (znajdziesz pod nią również informację o procentowym udziale danych).</p>
<h2 id="Różnice">Różnice w próbkowaniu w Google Analytics 4 vs Universal Analytics</h2>
<p>Standardowe raporty w Google Universal Analytics nie są próbkowane. Jeśli jednak dodasz do nich dodatkowe wymiary bądź segmenty &#8211; zaczną już podlegać następującym ogólnym limitom próbkowania:</p>
<ul>
<li>Standardowa analiza: 500 tys. sesji dla używanego okresu danych</li>
<li>Analytics 360: 100 mln sesji dla widoku używanego okresu danych</li>
</ul>
<p><strong>W przypadku Google Analytics 4 domyślne raporty zawsze są niepróbkowane</strong>. Możesz stosować porównania i niestandardowe parametry, a wszystkie raporty nadal będą niepróbkowane. W zaawansowanej zakładce <strong>Analiza</strong>, raporty mogą być próbkowane, gdy liczba wykorzystywanych danych przekracza 10 milionów i tworzony raport nie jest kopią standardowego raportu.</p>
<h2 id="Eksploracje">Eksploracje niespróbkowane &#8211; czym są i czy warto?</h2>
<p>W Google Analytics istnieje jeszcze coś takiego, jak eksploracje niespróbkowane, które pozwalają na generowanie raportów opierających się na podstawie nawet 50 miliardów zdarzeń. Jest jednak jeden małych “haczyk” &#8211; mogą z nich korzystać tylko osoby posiadające Google Analytics 360. <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f609.png" alt="😉" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p>
<p>Jak to zrobić? Wystarczy, że poprosisz o niespróbkowane dane! Taki krok zapewni Ci bardzo dokładne raporty i pozwoli na uzyskanie danych, które nie są dostępne w ich standardowych wersjach.</p>
<script>(function() {
	window.mc4wp = window.mc4wp || {
		listeners: [],
		forms: {
			on: function(evt, cb) {
				window.mc4wp.listeners.push(
					{
						event   : evt,
						callback: cb
					}
				);
			}
		}
	}
})();
</script><!-- Mailchimp for WordPress v4.12.6 - https://wordpress.org/plugins/mailchimp-for-wp/ --><form id="mc4wp-form-1" class="mc4wp-form mc4wp-form-5854" method="post" data-id="5854" data-name="Newsletter Post" ><div class="mc4wp-form-fields"><div class="newsletter-post">
<h3>Zapisz się na newsletter</h3>
<p><strong>i bądź na bieżąco z nowościami ze świata analityki internetowej!</strong></p>
<div class="row align-items-end">
<div class="col-12 col-md">
<label>
		<input type="text" name="NAME" placeholder="Imię*" required />
</label>
</div>
<div class="col-12 col-md">
<label>
		<input type="email" name="EMAIL" placeholder="E-mail*" required />
</label>
</div>
<div class="col-12 col-md-auto">
	<input type="submit" value="Subskrybuj" />
</div>
</div>
<div class="newsletter-post-agree">
    <label>
        <input type="checkbox" name="AGREE_TO_TERMS" value="1" required> Wyrażam zgodę na wykorzystywanie danych zgodnie z <a href="https://conversion.pl/polityka-prywatnosci/" target="_blank"> Polityką Prywatności</a>
    </label>
</div>
</div>
</div><label style="display: none !important;">Pozostaw to pole puste, jeśli jesteś człowiekiem: <input type="text" name="_mc4wp_honeypot" value="" tabindex="-1" autocomplete="off" /></label><input type="hidden" name="_mc4wp_timestamp" value="1782039497" /><input type="hidden" name="_mc4wp_form_id" value="5854" /><input type="hidden" name="_mc4wp_form_element_id" value="mc4wp-form-1" /><div class="mc4wp-response"></div></form><!-- / Mailchimp for WordPress Plugin -->
<p>&nbsp;</p>
<h2 id="Kardynalność">Kardynalność danych w Google Analytics</h2>
<p>Skoro omówienie zagadnienia próbkowana mamy już za sobą &#8211; najwyższa pora przejść do kolejnego “ograniczenia”. Otóż, kardynalność to ilość unikalnych wartości w wymiarze. Jeśli to pojęcie nadal niewiele Ci wyjaśnia &#8211; spokojnie, już tłumaczę <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f60a.png" alt="😊" class="wp-smiley" style="height: 1em; max-height: 1em;" />!</p>
<p>Musisz zdawać sobie sprawę, że <strong>niektóre wymiary mają określoną liczbę wartości</strong>. W tym obszarze możemy mówić np. o typach urządzeń, wymieniając: komputer, tablet, telefon &#8211; co da nam liczność na poziomie 3.</p>
<p>Inne, jak chociażby ścieżka, lokalizacja, identyfikator, a nawet nazwa elementu &#8211; mogą mieć zdecydowanie więcej. Ile? W przypadku 50 elementów na stronie liczność identyfikatora wynosi 50. Natomiast wymiar posiadający więcej niż 500 wartości &#8211; jest już uważany za wysoko kardynalny.</p>
<p>Raporty standardowe bez wymiaru dodatkowego lub porównania mają limit 50 000 wierszy w tabeli. Przy czym &#8211; zawierają tylko niezbędne dane. Raporty <strong>Eksploruj</strong> lub standardowe z dodatkowym wymiarem lub porównaniem oferują aż 2 miliony limitu wierszy w tabeli. Trzeba wspomnieć, że te raporty zawierają wszystkie wymiary w usłudze &#8211; i to niezależnie od tego, czy są potrzebne i czy wpływają na limit wierszy. Z kolei duża liczba wymiarów może spowodować pojawienie się wiersza “other”.</p>
<h2 id="Dlaczego">Dlaczego liczność danych w Google Analytics 4 może stanowić źródło problemów?</h2>
<p>Pojawienie się kardynalności powoduje wzrost liczby wierszy w raporcie GA4. Każdy raport ma inną tabelę i po osiągnięciu limitu wierszy GA4 dodaje &#8222;inne&#8221; (a w zasadzie “other”) do wymiaru. W &#8222;other&#8221; znajdują się więc wszystkie dane przekraczające limit. Raporty standardowe i eksploracyjne mają różne limity, więc rezultaty również mogą być zgoła odmienne.</p>
<p><strong>Uwaga</strong>: nieznane dane, które trafią do raportu, również wpływają na limit wierszy.</p>
<h2 id="other">Jak pozbyć się “other” w raportach GA4?</h2>
<p>Jeżeli “odkładanie” danych do “innych” nie jest Ci po drodze &#8211; możesz skorzystać z poniższej instrukcji.</p>
<ul>
<li>Używaj standardowych raportów, gdy to możliwe. Posiadają specjalne tabele, które umożliwiają zmniejszenie ryzyka zgrupowania danych w &#8222;other&#8221;.</li>
<li>Użyj Eksploracji, jeśli widzisz &#8222;other&#8221; w swoich raportach. Eksploracje korzystają bowiem z innego limitu tabeli.</li>
<li>Unikaj tworzenia niestandardowych wymiarów, a gdy to możliwe &#8211; korzystaj z tych predefiniowanych.</li>
<li>Używaj wymiarów o dużej liczności tylko wtedy, gdy jest to niezbędne. Limit wierszy może dotyczyć wszystkich danych w usłudze dla określonego zakresu dat &#8211; gdy zastosujesz dodatkowy wymiar lub porównanie do raportu standardowego albo gdy użyjesz raportu niestandardowego.</li>
<li>Unikaj tworzenia niestandardowego wymiaru w celu identyfikacji poszczególnych użytkowników. Zamiast tego użyj funkcji User-ID w GA4.</li>
<li>Wyeksportuj swoje dane do BigQuery.</li>
</ul>
<p>Oczywiście, można sobie z tym poradzić również w inny sposób &#8211; wykupując Google Analytics 4 w wersji 360 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f60a.png" alt="😊" class="wp-smiley" style="height: 1em; max-height: 1em;" />.<br />
Tego rodzaju usługa pozwala bowiem na automatyczne uruchamianie rozszerzonych zbiorów danych – i to dla obu typów raportów &#8211; standardowych i eksploracyjnych. Wówczas limit wynosi 2 miliony wierszy w tabeli. I co najważniejsze &#8211; taki <strong>rozszerzony zbiór danych obejmuje tylko wymiary potrzebne do raportu</strong>, a nie wszystkie zebrane dla usługi.</p>
<p>Ponadto, przejście na Analytics 360 pozwoli Ci korzystać z automatycznie rozwijanych zbiorów danych, jeśli w standardowej usłudze widoczny jest wiersz „other”. Analytics 360 samoczynnie uruchomi wówczas rozwijane zbiory danych, aby unikać tego wiersza &#8211; gdy tylko osiągniesz limit powodujący jego pojawienie się.</p>
<h2 id="Progowanie">Progowanie danych w Google Analytics</h2>
<p>Jeśli operuje na sporych bazach danych &#8211; prędzej czy później spotkasz się z sytuacją, w której zauważysz ich częściowe braki. Będą one wynikać ze stosowania tzw. progów, które zostały zaprojektowane po to, aby chronić <a href="https://conversion.pl/blog/prywatnosc-w-google-analytics-dane-uzytkownikow/"><strong>prywatność użytkowników</strong></a> witryny, a co za tym idzie &#8211; <strong>uniemożliwić osobom przeglądającym raport określenie ich tożsamości</strong> (przynajmniej na podstawie informacji o danych demograficznych czy zainteresowaniach).</p>
<h2 id="Kiedy">Kiedy stosowane są progi danych?</h2>
<p>Mówiąc wprost &#8211; jeżeli Twój raport zawiera dane o wieku, płci lub zainteresowaniach (zawarte w wymiarze podstawowym, dodatkowy, porównaniu danych lub segmencie) &#8211; wówczas może zostać zastosowany próg danych, a co za tym idzie &#8211; <strong>wybrane informacje zostaną ukryte</strong>.</p>
<h2 id="Czy">Czy możesz usunąć próg danych?</h2>
<p>Uprzedzając ewentualne pytania: tego rodzaju <strong>progi są ustalane przez Google i nie da się ich zmieniać</strong>. Google Analytics stosuje je po to, aby chronić prywatność użytkowników. Jest jednak jedno, małe “ale”&#8230;</p>
<p>Z powodzeniem można zmienić sposób raportowania, który pozwoli uniknąć progowania danych. Aby to zrobić &#8211; wystarczy, że wybierzesz opcję raportowania tylko na urządzeniu. W takiej sytuacji Analytics użyje identyfikatora klienta (lub identyfikatora instancji aplikacji), które nie podlegają już takim progom.</p>
<p>Musisz jednak pamiętać, że takie zmiany, dane demograficzne w raportach z niską liczbą użytkowników mogą nadal być wstrzymane.</p>
<h2 id="Limity">Limity w Google Analytics</h2>
<p>Kolejnym rodzajem ograniczeń, jakie narzuca na nas jedno z najpopularniejszych narzędzi do <a href="https://conversion.pl/blog/analityka-internetowa-co-to-jest/"><strong>analityki internetowej</strong></a>, są limity. Zaliczamy do nich limity związane <strong>z trafieniami, zbierania danych o zdarzeniach oraz konfiguracji</strong>.</p>
<p>Poniżej znajdziesz kluczowe informacje na temat każdego z nich, a przy dwóch ostatnich – dodatkowe tabele z wyszczególnionymi progami.</p>
<h2 id="trafień">Limity trafień w Google Analytics 4</h2>
<p>Pierwsze “na warsztat” weźmiemy tzw. trafienia, czyli działania podejmowane przez konkretnych użytkowników Twojej witryny internetowej.</p>
<p>W przypadku standardowej wersji Analyticsa limit trafień wynosił 10 milion miesięcznie. W przypadku Google Analytics 4 dobra wiadomość jest taka, że został on całkowicie zniesiony <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f60a.png" alt="😊" class="wp-smiley" style="height: 1em; max-height: 1em;" />!</p>
<h2 id="zbierania">Limity zbierania danych o zdarzeniach</h2>
<p>Analytics posiada także limity dla rejestrowania zdarzeń, parametrów zdarzeń oraz właściwości użytkownika. A ich przekroczenie może oznaczać, że dane nie zostaną zarejestrowane.</p>
<p>Przykłady? GA przestanie rejestrować aktywności użytkownika z 26 lub więcej wartościami, a także nazw zdarzeń o długości większej niż 40 znaków.</p>
<p>Więcej informacji na temat limitów zbierania danych znajdziesz w poniższej tabeli:</p>
<div class="photo"><a href="https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-1.png"><img decoding="async" class="aligncenter size-full wp-image-4415" src="https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-1.png" alt="" width="548" height="793" srcset="https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-1.png 548w, https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-1-207x300.png 207w, https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-1-270x390.png 270w" sizes="(max-width: 548px) 100vw, 548px" /></a></div>
<div class="photo"><em>Źródło: Własne opracowanie</em></div>
<h2 id="GA4">Limity konfiguracji w GA4</h2>
<p>Ostatnim, aczkolwiek wcale nie najmniej istotnym ograniczeniem, są tzw. limity konfiguracji. Mogą dotyczyć takich aspektów, jak: odbiorcy, konwersje, eksploracje i wiele innych.</p>
<p>Przykład? Google Analytics nie pozwoli Ci skonfigurować kolejnej listy odbiorców, jeśli w danym momencie posiadasz już 100 takich list.</p>
<p>A jeśli usługa zbiera więcej danych niż wynika z limitu próbkowania &#8211; narzędzie będzie korzystać z dostępnej próbki danych w swoich eksploracjach.</p>
<p>Więcej informacji na temat tego rodzaju limitów odczytasz z tej tabeli:</p>
<div class="photo"><a href="https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-2.png"><img decoding="async" class="aligncenter size-full wp-image-4413" src="https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-2.png" alt="" width="547" height="739" srcset="https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-2.png 547w, https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-2-222x300.png 222w, https://conversion.pl/wp-content/uploads/2023/03/tabela-nr-2-289x390.png 289w" sizes="(max-width: 547px) 100vw, 547px" /></a></div>
<div class="photo"><em>Źródło: Własne opracowanie</em></div>
<h2 id="podsumowanie">Limity, kardynalność i próbkowanie w raporty Google Analytics 4 &#8211; podsumowanie</h2>
<p>Jak widzisz korzystanie z Google Analytics jest bardzo pomocne &#8211; o weźmiesz pod uwagę ograniczenia oraz limity tego narzędzia. Mam nadzieję, że tym artykułem przynajmniej przybliżyłem Ci tę tematykę i udzieliłem odpowiedzi na najbardziej nurtujące pytania.</p>
<p>A jeśli zastanawiasz jak wykorzystać te narzędzia w Twojej firmie – <a href="https://conversion.pl/kontakt/"><strong>pogadajmy</strong></a>!<br />
<a href="https://conversion.pl/uslugi/audyt-google-analytics-4/"><img decoding="async" class="aligncenter size-full wp-image-4423" src="https://conversion.pl/wp-content/uploads/2024/09/Banery-na-www-44.png" alt="raporty google analytics 4" /></a></p><p>The post <a href="https://conversion.pl/blog/raporty-google-analytics-4-kardynalnosc-probkowanie-danych-limity/">Raporty Google Analytics 4: kardynalność i próbkowanie danych oraz inne limity</a> first appeared on <a href="https://conversion.pl">Conversion</a>.</p>]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Próbkowanie danych w Google Analytics</title>
		<link>https://conversion.pl/blog/probkowanie-danych-w-google-analytics/</link>
		
		<dc:creator><![CDATA[Mariusz Michalczuk]]></dc:creator>
		<pubDate>Thu, 02 Apr 2015 07:18:58 +0000</pubDate>
				<category><![CDATA[Analityka internetowa]]></category>
		<category><![CDATA[Google Analytics]]></category>
		<category><![CDATA[Universal Analytics]]></category>
		<category><![CDATA[Analiza danych]]></category>
		<category><![CDATA[bigquery]]></category>
		<category><![CDATA[Próbkowanie danych]]></category>
		<category><![CDATA[Segmentacja]]></category>
		<category><![CDATA[Web analytics]]></category>
		<guid isPermaLink="false">https://new.conversion.pl/probkowanie-danych-w-google-analytics/</guid>

					<description><![CDATA[<p>Big Data to dzisiaj bardzo popularny termin. Internet jest niesamowicie mierzalnym medium, przez co dysponujemy morzem danych. Co to w rzeczywistości oznacza dla naszych narzędzi analitycznych–w szczególności dla Google Analytics? Na pewno część z Was spotkała się w swojej pracy z Google Analytics z informacją o próbkowaniu danych. Przy korzystanie z bardziej zaawansowanych analiz (np. [&#8230;]</p>
<p>The post <a href="https://conversion.pl/blog/probkowanie-danych-w-google-analytics/">Próbkowanie danych w Google Analytics</a> first appeared on <a href="https://conversion.pl">Conversion</a>.</p>]]></description>
										<content:encoded><![CDATA[<p>Big Data to dzisiaj bardzo popularny termin. Internet jest niesamowicie mierzalnym medium, przez co dysponujemy morzem danych. Co to w rzeczywistości oznacza dla naszych narzędzi analitycznych–w szczególności dla Google Analytics?</p>
<p>Na pewno część z Was spotkała się w swojej pracy z Google Analytics z informacją o próbkowaniu danych.</p>
<div class="photo"><a class="fancybox" title="Konfiguracja UserID" href="https://conversion.pl/wp-content/uploads/2023/02/probkowanie-ga.png" rel="fancybox"><img decoding="async" title="" src="https://conversion.pl/wp-content/uploads/2023/02/probkowanie-ga.png" alt="Informacja o próbkowanie w Google Analytics" width="600" /></a><br />
<em>Przy korzystanie z bardziej zaawansowanych analiz (np. z wykorzystaniem wymiarów dodatkowych lub segmentów zaawansowanych) na pasku funkcjonalnym może nam pojawić się informacja o próbkowaniu.</em></div>
<p>Co to tak naprawdę dla nas oznacza? Czy powinniśmy się tym przejmować, czy jednak stawiać wnioski z pewną dozą ostrożności? Czy podejmując decyzje na podstawie takich danych możemy być pewni ich trafności?</p>
<p>W tym artykule od podstaw wytłumaczę czym jest i jak działa próbkowanie w Google Analytics? Pokaże na podstawie Google Analytics Premium, jakie przekłamanie niosą raporty próbkowania danych.</p>
<h3>Istota próbkowania</h3>
<p>Próbkowanie w statystyce oznacza proces, w którym z populacji (np. mieszkańców kraju) losujemy jakąś reprezentację (grupę ludzi) i na jej podstawie podajemy cechy całej populacji. Dobrym przykładem są tutaj badania sondażowe partii politycznych. W sondażach bierze udział pewna część społeczeństwa (próba), która deklaruje poparcie dla danej opcji politycznej. Na tej podstawie następnie jest obliczane poparcie całego społeczeństwa.</p>
<p>Jest to jedyny sposób, aby w ramach ograniczonego budżetu badania opisać całą populację–trudno jest w końcu pytać każdego Polaka z czynnym prawem wyborczy, na którą partię jest skłonny w danym momencie zagłosować. Następuje tu swoista wymiana pomiędzy wartością poznawczą badania, a kosztem przeprowadzenia takiego sondażu. Trudno w końcu co miesiąc organizować mini wybory parlamentarne–badania sondażowe bazują na próbie ok 1-2 tysięcy Polaków.</p>
<div class="photo"><a class="fancybox" title="Konfiguracja UserID" href="https://conversion.pl/wp-content/uploads/2023/02/probkowanie-schemat.png" rel="fancybox"><img decoding="async" title="" src="https://conversion.pl/wp-content/uploads/2023/02/probkowanie-schemat.png" alt="Schemat losowania (próbkowania) w statystyce" width="600" /></a><br />
<em>Próbkowanie (losowanie) polega na tym, że dla na podstawie losowo dobranej próby opisuje się całą populację. Prawa statystyki pozwalają zakładać, że wiedza o populacji uzyskana na podstawie próby jest prawdziwa.</em></div>
<p>Dzięki mechanizmom losowania (losowego doboru) próby uznaje się, że metryki opisujące próbę odzwierciedlają stan całej populacji. Stąd wyniki sondażowe niemal w całkowitym stopniu pokrywają się z późniejszymi wyborami parlamentarnymi. Ich dokładność zależy tak naprawdę od doboru próby, czyli tego czy agencje badawcze prawidłowo wybiorą ludzi do badania.</p>
<p>Próbkowanie w Google Analytics polega na tym samym, z tym że tutaj zachodzi wymiana pomiędzy dokładnością obliczania metryk, które widzimy w raportach, a czasem ładowania raportów w interfejsie narzędzia. W przypadku dużych serwisów mamy do czynienia z ogromną ilością danych opisujących zachowanie użytkowników. Wszystkie te dane składowane są na odległych serwerach Google. Jeżeli chcemy wykonać <a title="Czym różni się raportowanie od analizy?" href="https://conversion.pl/blog/czym-rozni-sie-raportowanie-od-analizy/">analizę bazującą na większym zakresie danych</a>, to Google Analytics musi wówczas odpytać bazy danych znajdujące się na tych serwerach. W związku z ogromną ich ilością nie może wziąć wszystkich pod uwagę, ale uruchamia mechanizm próbkowania, którym w tym większym stopniu działa, im większy ruch (więcej danych) generuje serwis.</p>
<h3>Próbkowanie w Google Analytics</h3>
<p>Część z Was może zadać pytanie: &#8222;Ok, mam bardzo duży ruch, ale kiedy włączam wszystkie &#8222;podstawowe&#8221; raporty, to nie widzę, aby dane były próbkowane. Dopiero w momencie włączenia segmentu zaawansowanego lub dodania wymiaru dodatkowego mechanizm próbkowania daje o sobie znać.&#8221;</p>
<p>Dokładnie tak jest. Dane, które widzimy w predefiniowanych raportach są obrazem wszystkich danych leżących na serwerze. Poniżej pewnego progu (o tym w dalszej części artykułu) nie są one próbkowane. Można zobrazować to w ten sposób:</p>
<div class="photo"><a class="fancybox" title="Konfiguracja UserID" href="https://conversion.pl/wp-content/uploads/2023/02/predefiniowane-tabele-ga.png" rel="fancybox"><img decoding="async" title="" src="https://conversion.pl/wp-content/uploads/2023/02/predefiniowane-tabele-ga.png" alt="Schemat losowania (próbkowania) w statystyce" width="600" /></a><br />
<em>Raporty standardowo, pomimo dużego ruchu nie mają włączonego próbkowania danych, ponieważ bazują na predefiniowanych tabelach w bazie danych Google Analytics. Aktualizowane są one (1) raz dziennie. My w raportach Google Analytics możemy oglądać je w czasie rzeczywistym (2).</em></div>
<p>Na poziomie usługi przechowywane są surowe, cząstkowe dane dotyczące ruchu użytkowników. W każdym widoku danych tworzony jest zestaw predefiniowanych raportów, które korzystając z codziennie odświeżanych tabel, które zawierają zagregowane dane. Dzięki temu (do pewnego progu) takie raporty nie są próbkowane.</p>
<p>Dopiero w momencie, w którym chcemy nałożyć segment zaawansowany lub po prostu utworzyć raport niestandardowy, to interfejs musi sięgnąć do surowych danych zgromadzonych &#8222;głębiej&#8221; na serwerze i od początku je przeprocesować (omijając krok 2). Jeżeli tych danych jest tam bardzo dużo, to na poczet szybszego ładowania się docelowego raportu dane te są selekcjonowane tzn. próbkowane. To co widzimy w raporcie końcowym jest efektem obliczeń na podstawie wylosowanej próby.</p>
<p>Nie wszystkie raporty predefiniowane mają takie same progi, powyżej których są próbkowane. Wyjątek stanowią raporty ścieżek wielokanałowych oraz raporty przepływu. Tutaj próbkowanie następuje znacznie szybciej.</p>
<p>Z dużą ilością danych związane jest również zjawisko pojawiania się &#8222;(other)&#8221; w raportach. Na ten temat jednak Paweł pisał oddzielny artykuł. Przeczytacie w nim, jaki jest powód powstawania tej wartości wymiaru w raportach oraz jak sobie z nim radzić.</p>
<p>Oprócz tego, że raporty mogą bazować na próbkowanych danych, to takie próbkowanie możemy samodzielnie zdefiniować z poziomu kodu śledzącego. W przypadku ustawienia poziomu próbkowania np. na poziomie 50%, co drugi użytkownik brany jest pod uwagę tzn. śledzone jest jego zachowanie. Więcej na ten temat można przeczytać na <a href="https://developers.google.com/analytics/devguides/collection/analyticsjs/field-reference#sampleRate" rel="nofollow noopener" target="_blank">stronie pomocy Google Analytics</a>.</p>
<h3>Co to znaczy &#8222;duży ruch&#8221;?</h3>
<p>Metryki pokazywane w raportach Google Analytics będą poddane próbkowanie w jednym z dwóch przypadków. Każdy z nich oczywiście zależy od wolumenu ruchu, jaki generuje nasz serwis.</p>
<p>Próbkowanie włączy się w przypadku, którym nasz &#8222;niestandardowy&#8221; raport będzie wymagał dostępu do większej niż 1 milion unikalnych kombinacji wymiarów. Powiedzmy, że chcemy wygenerować raport, który będzie pokazywał wejścia oraz współczynnik odrzuceń dla kombinacji wymiarów: strony, przeglądarka oraz rozdzielczości ekranu. Kombinacja tych trzech wymiarów daje nam tabelę, która ma ponad 1 milion wierszy. W takim wypadku Google Analytics wyświetli nam 1 milion / liczbę dni, dla których chcemy pokazać analizę.</p>
<p>Jeżeli nasze &#8222;niestandardowe&#8221; zapytanie dotyczy więcej niż 500k sesji (może to łatwo nastąpić dla dłuższych okresów czasu), to wówczas dane do kalkulacji będą wzięte dla maksymalnie 500k sesji. W rzeczywistości, w momencie kiedy próbkowanie sią włącza, to mamy informację, dla jakiej liczby sesji zostały obliczone poszczególne metryki. Standardowo próbka określona jest na ok 250k sesji, ale na korzyść większej dokładności obliczeń metryk możemy wybrać wolniejszy czas ładowania się raportów.</p>
<div class="photo"><a class="fancybox" title="Konfiguracja UserID" href="https://conversion.pl/wp-content/uploads/2023/02/probkowanie-wybor.png" rel="fancybox"><img decoding="async" title="" src="https://conversion.pl/wp-content/uploads/2023/02/probkowanie-wybor.png" alt="Wybór poziomu próbkowania w Google Analytics" width="600" /></a><br />
<em>Jeżeli wolimy dysponować bardziej dokładnymi danymi i nie śpieszy nam się tzn. godzimy się na dłuższy czas ładowania raportów, to mamy możliwość wyboru poziomu próbkowania.</em></div>
<h3>Precyzja próbkowania</h3>
<p>Z założenia próba powinna odzwierciedlać całą populację, więc metryki obliczone na jej podstawie powinny być analogiczne dla całej populacji. Na pewno mniejszych przekłamań możemy spodziewać się na poziomie metryk względnych (współczynniki, średnie). Gorzej jest w przypadku metryk nominalnych, ponieważ ich wartości obliczane są po prostu jako wynik z próby pomnożony przez współczynnik próbkowania (jeżeli na podstawie próby wyjdzie, że dany wymiar miał np. 200 sesji, to przy 20% próbkowaniu dla całej populacji wartość tego wymiaru zostanie określona jako 5 x 200 = 1000 sesji).</p>
<p>Jak jest w rzeczywistości? Do sprawdzenia tego wykorzystaliśmy Google Analytics Premium. W wybranym raporcie &#8222;zadaliśmy pytanie&#8221; dotyczące wybranego segmentu ruchu. Otrzymaliśmy następujące wyniki:</p>
<div class="photo"><a class="fancybox" title="Konfiguracja UserID" href="https://conversion.pl/wp-content/uploads/2023/02/raport-probkowany.png" rel="fancybox"><img decoding="async" title="" src="https://conversion.pl/wp-content/uploads/2023/02/raport-probkowany.png" alt="Raport próbkowany w interfejsie Google Analytics" width="600" /></a><br />
<em>Przy ok. 30% próbkowaniu otrzymaliśmy powyższe wyniki. Jak za chwilę zobaczymy próba dobrana do wyświetlenia metryk w interfejsie podała w bardzo dużą dokładnością prawdziwe dane.</em></div>
<p>Po &#8222;zamówieniu&#8221; raportu niepróbkowanego okazało się, że metryki obliczone na podstawie wszystkich danych kształtują się następująco:</p>
<div class="photo"><a class="fancybox" title="Konfiguracja UserID" href="https://www.conversion.pl/blog/gfx/2015/4/raport-mnieprobkowany.png" rel="fancybox"><img decoding="async" title="" src="https://conversion.pl/wp-content/uploads/2023/02/raport-nieprobkowany.png" alt="Raport niepróbkowany wygenerowany na podstawie Google Analytics Premium" width="600" /></a><br />
<em>Jak się okazuje wyniki pokazywane przez interfejs na podstawie ok. 30% próby nie odbiegają bardzo od rzeczywistości.</em></div>
<p>W związku z tym możemy uznać, że mechanizm próbkowania zadziałał prawidłowo. Jednak aby potwierdzić tą prawidłowość musielibyśmy powtórzyć powyższą analizę dla różnych wymiarów i metryk. Z pewnością wymiary, które normalnie są mniej reprezentowane w całej populacji mogą być niedoszacowane (trudniej jest je wylosować i na tej podstawie rzetelnie oszacować ich statystyki).</p>
<h3>Czym dla nas skutkują ewentualne rozbieżności?</h3>
<p>Po pierwsze, jeżeli danych Google Analytics używamy do celów kontrolingowych, to próbkowanie możemy wpłynąć na rzetelność wyników. Jeżeli raportujemy dane do systematycznych podsumowań, to w związku z próbkowaniem nasza praca może być niewłaściwie oceniona.</p>
<p>Również w przypadku analiz–złe dane, to w dalszej kolejności błędne wnioski i nietrafne rekomendacji, a więc błędne decyzje biznesowe. Wyzwanie w takim wypadku może okazać się poważne. Zwłaszcza, kiedy rekomendujemy działania, które wynikają z niepoprawnych danych.</p>
<h3>Jak możemy się przed tym bronić?</h3>
<p>Co zrobić, aby nasze analizy, a więc wnioski i rekomendacji zawsze bazowały na poprawnych (niepróbkowanych) danych?</p>
<p>Po pierwsze możemy przejść na Google Analytics Premium. Jeżeli generujemy na tyle duży ruch, który jest dla nas wyzwaniem przy jego analizie, to najprawdopodobniej zarabia on na nas na tyle, że powinniśmy być w stanie zainwestować w narzędzie klasy premium. Pamiętajmy, że nie jest to inwestycja bezzwrotna–analizy danych z pewnością pozwoli na poprawę naszej efektywności, a tym samym na zwiększenie przychodów/zysków z biznesu. Jestem przekonany, że inwestycja w Google Analytics Premium ma duży zwrot–warunkiem oczywiście są zasoby, które te dane są w stanie przekuć na trafne decyzje biznesowe.</p>
<p>Co więcej, w samym Google Analytics Premium otrzymujemy dostęp do BigQuery–systemu zarządzania bazą surowych danych Google Analytics, który umożliwia nam dostęp do bardzo granularnych danych–nawet na poziomie pojedynczych hitów. Na tej podstawie możemy tworzyć bardzo zaawansowane modele matemtyczne, które posłużą nam do prognozy przyszłej efektywności na podstawie scenariuszów zachowania naszego makrootoczenia.</p>
<p>Jeżeli jednak nie możemy sobie pzowlić na zakup licencji Google Analytics Premium, to również są sposoby, aby w jego bezpłatnej wersji walczyć z próbkowaniem. Poniżej podaję kilka możliwości:</p>
<ul>
<li>W związku z tym, że próbkowanie zachodzi na poziomie usługi, to możemy tak zaplanować strukturę naszego konta Google Analytics, aby poszczególne jego sekcje śledzone były oddzielnymi usługami. Zmniejszy to ilość danych napływającą do naszego konta, a tym samym prawdopodobieństwo próbkowania. Taka struktura może wyglądać w sposób następujący:</li>
</ul>
<div class="photo"><a class="fancybox" title="Konfiguracja UserID" href="https://conversion.pl/wp-content/uploads/2023/02/struktura-probkowanie.png" rel="fancybox"><img decoding="async" title="" src="https://conversion.pl/wp-content/uploads/2023/02/struktura-probkowanie.png" alt="Struktura konta Google Analytics, która zapobiega próbkowaniu danych" width="600" /></a><br />
<em>Odpowiednia struktra konta pozwala zniwelować próbkowanie. Wystarczy, że każdą sekcję serwisu będziemy śledzili w ramach pojedycznych usług (próbkowanie zachodzi na poziomie usługi). Dodatkowo możemy utworzyć roll-up account, w którym tak czy inaczej będziemy śledzili cały serwis.</em></div>
<ul>
<li>W związku z tym, że próbkowanie dotyczy zazwyczaj dłuższych okresów czasu (większej ilości danych), to zawsze możemy skorzystać z API Google Analytics i samodzielnie tworzyć większe zbiory danych. Polega to na tym, że odpytujemy API pod dniach, a następnie dni łączymy w tygodnie, miesiące, lata obliczając samodzielnie metryki dla większych agregatów. Pomocne tutaj mogą okazać się zewnętrzne narzędzia jak Shufflepoint czy Analytics Canvas, które tę pracę dużej mierze za nas zautomatyzują.</li>
<li>Zawsze w końcu możemy narzucić próbkowanie na poziomie kodu. Wydaje się, że taki sposób próbkowania jest zdecydowanie lepszy niż w przypadku próbkowania na poziomie raportów–niestety nie sprawdzaliśmy nigdy tego empirycznie, ale myślę, że może to być ciekawe studium przypadku.</li>
</ul>
<h3>Podsumowanie</h3>
<p>Jak okazało się na podstawie przeprowadzonego eksperymentu, próbkowanie danych w Google Analytics nie przynosi duży rozbieżności pomiędzy wylosowaną próbką a stanem faktycznym. Jednak dane zostały wygenerowane na podstawie jednego segmentu.</p>
<p>Warto mimo wszystko swoje decyzje biznesowe podejmować na większości danych, którymi dysponujemy. Dlatego walka z próbkowaniem jest bardzo ważna. Najłatwiejsze rozwiązanie to inwestycja w narzędzie klasy premium. Jednak są również sposoby walki z próbkowaniem w bezpłatnej wersji Google Analytics. Czy macie inne, niż podane powyżej sposoby? Podzielcie się w komentarzach!</p><p>The post <a href="https://conversion.pl/blog/probkowanie-danych-w-google-analytics/">Próbkowanie danych w Google Analytics</a> first appeared on <a href="https://conversion.pl">Conversion</a>.</p>]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
